CN113642634B - 一种基于混合注意力的阴影检测方法 - Google Patents
一种基于混合注意力的阴影检测方法 Download PDFInfo
- Publication number
- CN113642634B CN113642634B CN202110922894.XA CN202110922894A CN113642634B CN 113642634 B CN113642634 B CN 113642634B CN 202110922894 A CN202110922894 A CN 202110922894A CN 113642634 B CN113642634 B CN 113642634B
- Authority
- CN
- China
- Prior art keywords
- attention
- convolution
- image
- module
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000007246 mechanism Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000011176 pooling Methods 0.000 claims description 40
- 230000004927 fusion Effects 0.000 claims description 31
- 238000005070 sampling Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 12
- 230000006872 improvement Effects 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 8
- 230000003416 augmentation Effects 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
一种基于混合注意力的阴影检测方法,包括如下步骤,步骤S1.获取用于训练系统的待处理公用阴影数据集;步骤S2.获取待检测图像;步骤S3.对数据集进行预处理获取对应的训练集与测试集;步骤S4.对待测图像进行预处理;步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。该方法增加了跨通道维度间和全局阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
Description
技术领域
本发明属于阴影检测技术领域,具体涉及一种基于混合注意力的阴影检测方法。
背景技术
在图像识别或语义分割等计算机视觉分类任务中,算法需要首先提取图像或视频中的特征,深度学习中通常使用卷积神经网络进行卷积操作,逐像素处理特征语义信息,寻找与标签的似然性。因此,图像的语义构成与各像素间的关联性决定着卷积操作的效率与复杂度。
文件:Hoeim D.Single-image shadow detection andremovalusingpairedregions[C]//ComputerVisionandPatternRecognition.ColoradoSprings:IEEE,2011:2033-2040指出,阴影作为无关背景语义,其中包含的可用关键信息较少,对于分类任务起不到相关作用,但由于其具备与目标前景像素紧密相连且形状近似的特点,通常会对计算机视觉任务的顺利进行产生影响。同时在灰度空间中,阴影对于目标像素语义具备更高的混淆性,导致卷积神经网络不易发掘出两者间的显著区别,从而降低算法训练与预测的准确性与鲁棒性。因此,在常见计算机视觉任务,如智慧驾驶、人脸检测、目标跟踪与识别、姿态估计中,图像的阴影检测工作显得格外重要,一个高效、全面、可泛化的阴影检测模型会提升整个任务的工作效率与能力上限。
目前已有部分学者提出了阴影检测算法,但其中大部分算法没有考虑到注意力机制在此类任务中的适用性以及跨通道维度和全局像素间的关联性,因此最终检测效果往往达不到预期效果。
Vicente等人在Vicente T F Y,Yu CP,Samaras D.Single image shadowdetection using multiple cues in a supermodular MRF[C]//BritishMachine VisionConference.Bristol:British Machine Vision Association,2013:1-12中提出支持向量机检测算法,构建SVM分类器对阴影进行有效分类;Maryam等发表文件MaryamG,Fatimah K,Abdullah L N.Shadow detection using color and edgeinformation[J].Journal ofComputer Science,2013,9(11):1575-1588,提出边缘信息检测算法,使用算子提炼图像中的低阶边缘信息,获取前景与阴影的边缘,从而达到分类效果;Hosseinzadeh等在文章Hosseinzadeh S,Shakeri M,Zhang H.Fast shadowdetection from a single imageusing a patched convolutional neural network[C]//2018 IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS).IEEE,2018:3124-3129中提出神经网络检测算法,利用卷积神经网络对图像进行卷积处理,获取高阶特征,大大提升准确度;Nguyen等提出Nguyen V,Vicente Y,Tomas F,et al.Shadow detection withconditional generative adversarial networks[C]//Proceedings of the IEEEInternational Conference on Computer Vision.2017:4510-4518,使用生成对抗网络检测算法,使用生成器和判别器处理图像,准确度提升的同时却大大增加了模型的复杂程度。
文件:Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in neural information processing systems.2017:5998-6008使用注意力机制,通过对像素级别的语义进行权值分配,提取目标前景最为显著的特征,引导算法集中处理这些首要目标特征,降低前景与背景的关联性,达到提高模型的迭代速度与准确性的目的。因此,注意力机制适用于阴影检测任务,其独有特性,对于图像中阴影的发掘具备较高的识别灵敏度。
发明内容
本发明所要解决的技术问题是克服现有技术的不足,提供一种基于混合注意力的阴影检测方法,通过研究阴影模型与混合注意力模型,结合混合注意力机制的设计思路,搭建融合通道注意力和空间注意力的网络,并使用密集连接和特征融合重用被忽略特征。增加了阴影特征的提取能力,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
本发明提供一种基于混合注意力的阴影检测方法,包括如下步骤,
步骤S1.获取用于训练系统的待处理公用阴影数据集;
步骤S2.获取待检测图像;
步骤S3.对数据集进行预处理获取对应的训练集与测试集;
步骤S4.对待测图像进行预处理;
步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;
步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;
步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;
步骤S8.输出阴影检测结果,对各像素进行阴影属性分类。
作为本发明的进一步技术方案,步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建;
预训练卷积神经网络ResNeSt50包括3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致,CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y为特征图尺寸,获取通道数为c/2的特征图Q、K、V;将Q和K进行关联操作,再通过softmax函数获取加权特征图,再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图;
关联操作的公式为其中,Qu、Ωu分别为在特征图Q、K上位置为u的向量,为Ωu的第i个元素的转置,di,u为Qu和Ωi,u的相关程度;
聚合操作的公式为其中,φi,u、Ai,u分别为在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值;Hu为原始特征图H在位置u上的特征向量,H′u为最后生成的注意力特征图在位置u上的特征向量;
softmax函数的公式为其中,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;通过Softmax函数将多分类的输出值转换为范围在[0,1]和为1的概率分布;
注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块;
空间域生成模块的生成公式为其中,Ms(F)为空间域注意力矩阵,为空间域平均池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
通道域生成模块的生成公式为其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
注意力融合模块的融合公式为FAttention=F×Ms(F)×Mc(F×Ms(F)),其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块,
替换通道域生成模块为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
改进空间域生成模块为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接后再输入3个3×3降维卷积层,输出空间域注意力矩阵;
改进空间域生成模块的公式为其中,Ms(F)为空间域注意力矩阵,为空间域平均池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)为经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
改进空间域生成模块为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
改进注意力融合模块的公式为其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
特征融合操作包括由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接。
进一步的,步骤S6中,FocalLoss损失函数的公式为其中,α为0.25,γ为2,Lfl为损失值,y为标签,y′为预测值。
根据损失调整卷积神经网络的参数,网络优化方法为随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
进一步的,步骤S1中获取用于训练系统的待处理公用阴影数据集,待处理公用阴影数据集中每例数据包括彩色原图与黑白标注图。
进一步的,待处理公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
进一步的,S3中预处理用于训练系统的公用阴影数据集的具体步骤如下,
步骤S31.对数据集训练数据与测试数据进行随机裁剪;
步骤S32.对数据集训练数据进行图像增广,图像增广为图像的水平或垂直镜像翻转,对数据集中每例数据彩色原图与黑白标注图进行同步操作。
进一步的,步骤S4中预处理待检测图像的具体方法为针对图像进行采样,采样阈值为320×320,采样方法为双线性插值法;
若图像长、宽皆大于320像素,下采样图像至320×320;
若图像长、宽皆小于320像素,上采样图像至320×320;
若图像320介于图像长、宽数值,采样图像至320×320;
若图像长、宽皆为320像素,不对图像进行采样操作。
本发明的优点在于,使用预训练的ResNeSt50网络,结合CBAM设计思想改进空间域特征提取形成混和域注意力机制。在充分利用混合注意力机制的基础上,参考密集连接思想保留和重用被忽略特征。通过混合注意力机制提升系统对于阴影的识别能力,提高系统对跨通道维度信息的提取,将系统的感受野从局部扩大到全局,实现阴影检测的高效性、可靠性,该方法增加了阴影特征的提取能力,降低了语义间的关联性,提升了检测系统的泛化性与高效性,使得阴影检测结果更加精确。
附图说明
图1为本发明的Resnet50基本模块结构图;
图2为本发明的CCA模块结构图;
图3为本发明的方法流程示意图;
图4为本发明的阴影检测网络的结构图。
具体实施方式
请参阅图1-图4,本实施例提供一种基于混合注意力的阴影检测方法,包括以下步骤,
步骤S1,获取用于训练系统的待处理公用阴影数据集。其数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据,每例数据包含彩色原图与黑白标注图两张图像。
步骤S2,从摄像头或本地硬盘获取待检测图像。
步骤S3,预处理用于训练系统的阴影数据集并获得对应的训练集与测试集。
其具体过程包括如下步骤:
步骤S31,对步骤1获得的数据集训练数据与测试数据进行随机裁剪,裁剪大小为320×320。
步骤S32,对步骤32获得的数据集训练数据进行图像增广,增广模式为图像的水平或垂直镜像翻转,增广规模为2倍。
在上述预处理阶段中,所有针对数据集的裁剪与增广操作,为数据集中每例数据彩色原图与黑白标注图的同步操作。
步骤S4,预处理待检测图像。
其预处理过程具体为针对图像的采样过程。采样阈值为320×320,采样方法为双线性插值法。
若图像长、宽皆大于320像素,下采样图像至320×320。
若图像长、宽皆小于320像素,上采样图像至320×320。
若图像320介于图像长、宽数值,采样图像至320×320。
若图像长、宽皆为320像素,不对图像进行采样操作。
步骤S5,核心神经网络各模块的搭建与融合,组成基于注意力机制的卷积神经网络。
核心神经网络各模块的搭建,包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建、上采样与特征融合输出模块的搭建:
预训练卷积神经网络Resnet50的优化与调整:
对于原有ResNeSt50网络,去除最后的全连接层和全局池化层,并使用已在Imagenet数据集上训练完成的Resnet50网络已有参数,优化后的网络包括:3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
重复十字交叉注意力模块的搭建与定义:
重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致。CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y表示特征图尺寸,得到通道数为c/2的特征图Q、K、V。将Q和K进行关联操作,再使用softmax函数得到加权特征图,再把结果与V进行聚合操作后与原始特征图相加得到最终的特征图;
关联操作计算公式:
其中,Qu、Ωu分别表示在特征图Q、K上位置为u的向量,表示Ωu的第i个元素的转置。di,u则表示Qu和Ωi,u的相关程度;
聚合操作计算公式:
其中,φi,u、Ai,u分别表示在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值。Hu表示原始特征图H在位置u上的特征向量,H′u表示最后生成的注意力特征图在位置u上的特征向量;
softmax函数计算公式:
其中,zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数。通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]和为1的概率分布;
注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块。
空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
通道域生成模块的计算流程:
其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
注意力融合模块的计算流程:
FAttention=F×Ms(F)×Mc(F×Ms(F))
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
注意力模块CBAM的改进包括替换通道域生成模块、改进空间域生成模块和改进注意力融合模块;
替换通道域生成模块,具体为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
改进空间域生成模块,具体为在CBAM空间域生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接再输入3个3×3降维卷积层,输出空间域注意力矩阵:
改进后的空间域生成模块的计算流程:
其中,Ms(F)为空间域注意力矩阵,为空间域平局池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)表示经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
改进注意力融合模块,具体为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
改进后的注意力融合模块的计算流程:
F′=f3*3×3(F)
FAttention=F′×Ms(F′)×Mc(F′×Ms(F))
其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
特征融合操作包括将由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接;
上采样与输出模块,包括1个3×3的通道数为64的卷积层、一个上采样双线性插值转置卷积层、一个Sigmoid激活函数,此模块搭建在模型的最后,用于输出模型的预测结果。
由于模型在通道维度上采用并行结构,提取更多跨通道特征,并在原始空间域模块中添加全局上下文空间信息提取。相较于原始ResNeSt50网络,除改进空间域模块和多尺度特征融合操作外,未额外增加模型深度。模型各处加权注意力特征图通过密集连接,相较于相加操作,拓展输入特征宽度以充分重用特征,在避免模型退化同时,充分提取各维度注意力,提高模型准确率和工作效率。
系统在ubuntu16.04、Python3.6、mxnet-cu100环境下搭建,在一张Tesla P100显卡上训练并测试,处理一张图片平均耗时0.034秒,预计检测速度达到每秒29.4帧,具备一定的高效实时检测能力。
步骤S6,计算网络预测与标签的损失,根据损失调整网络参数。
训练中,使用FocalLoss损失函数计算预测与标签间的损失。
FocalLoss计算公式:
其中,α取0.25,γ取2,Lfl为损失值,y为标签,y′为预测值。
系统网络的优化方法使用随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
步骤S7,深度卷积神经网络的完全训练并向其输入预处理的待检测阴影图像。
步骤S8,输出阴影检测结果,对各像素进行阴影属性分类。
本实施例考虑到计算机视觉任务中阴影模型对于图像前景的干扰,分析注意力机制的易用性与加权求和工作机制,结合cBAM设计思想改进空间域特征提取形成混和域注意力机制,本发明所提出模型在充分利用混合注意力机制的基础上,参考密集连接思想保留和重用被忽略特征。另外,针对深层特征图和浅层语义和位置信息不平衡情况,采用多尺度特征融合进一步提升模型检测效果。因此具备高效的阴影识别能力与阴影语义提取能力。经过验证,系统对于阴影的预测表现优秀,具备高效的阴影检测能力,且通过跨模型验证,证明了模型的泛化能力。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由权利要求书及其等效物界定。
Claims (6)
1.一种基于混合注意力的阴影检测方法,其特征在于,包括如下步骤,
步骤S1.获取用于训练系统的待处理公用阴影数据集;
步骤S2.获取待检测图像;
步骤S3.对数据集进行预处理获取对应的训练集与测试集;
步骤S4.对待测图像进行预处理;
步骤S5.搭建核心神经网络的各模块并进行融合,构建基于混合注意力机制的卷积神经网络;
步骤S6.计算卷积神经网络预测与标签的损失,根据损失调整卷积神经网络的参数;
步骤S7.将预处理后的待测图像输入到完全训练的卷积神经网络;
步骤S8.输出阴影检测结果,对各像素进行阴影属性分类;
所述步骤S5中的核心神经网络的各模块的搭建包括预训练卷积神经网络ResNeSt50的搭建、重复十字交叉注意力模块的搭建、注意力模块CBAM的改进与搭建和上采样与特征融合输出模块的搭建;
所述预训练卷积神经网络ResNeSt50包括3个3×3卷积层,通道数为64,步数为2;1个3×3最大池化层,步数为2;3个重复的第一残差卷积块,每个重复的第一残差卷积块包括1个通道数为64的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为32的1×1卷积层、1个通道数为128的1×1卷积层、1个通道数为256的1×1卷积层;4个重复的第二残差卷积块,每个重复的第二残差卷积块包括1个通道数为128的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为64的1×1卷积层、1个通道数为256的1×1卷积层、1个通道数为512的1×1卷积层;6个重复的第三残差卷积块,每个重复的第三残差卷积块包括1个通道数为256的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为128的1×1卷积层、1个通道数为512的1×1卷积层、1个通道数为1024的1×1卷积层;3个重复的第四残差卷积块,每个重复的第四残差卷积块包括1个通道数为512的1×1卷积层、1个通道数为1024的3×3卷积层、1个通道数为256的1×1卷积层、1个通道数为1024的1×1卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层;
所述重复十字交叉注意力模块由两个CCA模块串联而成,其输入和输出特征图尺寸一致,CCA模块将形状为(n,c,x,y)的特征图分别输入三个1×1卷积层,其中n为批量大小,c为特征图通道数,x和y为特征图尺寸,获取通道数为c/2的特征图Q、K、V;将Q和K进行关联操作,再通过softmax函数获取加权特征图,再把加权结果与V进行聚合操作后与原始特征图相加获取最终的特征图;所述关联操作的公式为其中,Qu、Ωu分别为在特征图Q、K上位置为u的向量,为Ωu的第i个元素的转置,di,u为Qu和Ωi,u的相关程度;
所述聚合操作的公式为其中,φi,u、Ai,u分别为在特征图V、A中在第i个通道和位置u上在同一行或同一列特征向量的标量值;Hu为原始特征图H在位置u上的特征向量,Hu'为最后生成的注意力特征图在位置u上的特征向量;
所述softmax函数的公式为其中,Zi为第i个节点的输出值,C为输出节点的个数,即分类的类别个数;通过Softmax函数将多分类的输出值转换为范围在[0,1]和为1的概率分布;
所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块;
空间域注意力生成模块的生成公式为
其中,Ms(F)为空间域注意力矩阵,为空间域平均池化生成矩阵,为空间域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f7×7为卷积核尺寸为7×7的卷积操作;
所述通道域生成模块的生成公式为
其中,Mc(F)为通道域注意力矩阵,为通道域平局池化生成矩阵,为通道域最大池化生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,MLP为一种多层感知机;
所述注意力融合模块的融合公式为FAttention=F×Ms(F)×Mc(F×Ms(F)),其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵;
所述所述注意力模块CBAM的改进包括替换通道域生成模块、改进空间域注意力生成模块和改进注意力融合模块,
所述替换通道域生成模块为将ResNeSt50中4个不同数量的重复残差卷积块替换原来的通道域模块;
所述改进空间域注意力生成模块为在CBAM空间域注意力生成模块添加经过重复十字交叉注意模块得到的通道数为1的特征图,与原有平均池化、最大池化结果连接后再输入3个3×3降维卷积层,输出空间域注意力矩阵;
所述改进空间域注意力生成模块的公式为
其中,Ms(F)为空间域注意力矩阵,为空间域平均池化生成矩阵,为空间域最大池化生成矩阵,为空间域卷积生成矩阵,AvgPool、MaxPool和Sigmoid分别为平均池化操作、最大池化操作和Sigmoid转化,f3*3×3为卷积核尺寸为3个3×3的卷积操作,CCA(CCA)为经过两次CCA模块操作,RCCA表示重复十字交叉注意模块;
所述改进空间域注意力生成模块为在原有注意力融合模块开始处添加降维卷积模块,降维卷积模块由3×3卷积层、批量归一化层组合而成;
F′=f3*3×3(F)
所述改进注意力融合模块的公式为FAttention=F′×Ms(F′)×Mc(F′×Ms(F′)),其中,FAttention为融合注意力的新特征图,Ms(F)为空间域注意力矩阵,Mc(F)为通道域注意力矩阵,f3*3×3为3个卷积核为3的卷积操作;
所述特征融合输出模块的特征融合操作包括由改进空间域生成后的多通道特征图进行上采样:从最底层向上图像尺寸全都上采样为80×80,通道数依次为256、128、64、64,然后依次按通道维度进行拼接。
2.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S6中,FocalLoss损失函数的公式为其中,α为0.25,γ为2,Lfl为损失值,y为标签,y′为预测值根据损失调整卷积神经网络的参数,网络优化方法为随机梯度下降,初始学习率为0.01,学习率衰减周期为100步,训练迭代步数为2000步。
3.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S1中获取用于训练系统的待处理公用阴影数据集,待处理公用阴影数据集中每例数据包括彩色原图与黑白标注图。
4.根据权利要求1或3所述的一种基于混合注意力的阴影检测方法,其特征在于,所述待处理公用阴影数据集包括SBU、UCF两个公用阴影数据集,其中SBU数据集包含4089例训练数据与638例测试数据,UCF数据集包含245例测试数据。
5.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述S3中预处理用于训练系统的公用阴影数据集的具体步骤如下,
步骤S31.对数据集训练数据与测试数据进行随机裁剪;
步骤S32.对数据集训练数据进行图像增广,图像增广为图像的水平或垂直镜像翻转,对数据集中每例数据彩色原图与黑白标注图进行同步操作。
6.根据权利要求1所述的一种基于混合注意力的阴影检测方法,其特征在于,所述步骤S4中预处理待检测图像的具体方法为针对图像进行采样,采样阈值为320×320,采样方法为双线性插值法;
若图像长、宽皆大于320像素,下采样图像至320×320;
若图像长、宽皆小于320像素,上采样图像至320×320;
若320介于图像长、宽数值间,采样图像至320×320;
若图像长、宽皆为320像素,不对图像进行采样操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922894.XA CN113642634B (zh) | 2021-08-12 | 2021-08-12 | 一种基于混合注意力的阴影检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110922894.XA CN113642634B (zh) | 2021-08-12 | 2021-08-12 | 一种基于混合注意力的阴影检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642634A CN113642634A (zh) | 2021-11-12 |
CN113642634B true CN113642634B (zh) | 2024-10-29 |
Family
ID=78421011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110922894.XA Active CN113642634B (zh) | 2021-08-12 | 2021-08-12 | 一种基于混合注意力的阴影检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642634B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492631B (zh) * | 2022-01-25 | 2024-11-08 | 燕山大学 | 一种基于通道注意力的空间注意力计算方法 |
CN114550014B (zh) * | 2022-02-24 | 2024-08-13 | 中国电建集团中南勘测设计研究院有限公司 | 道路分割方法及计算机装置 |
CN114581560B (zh) * | 2022-03-01 | 2024-04-16 | 西安交通大学 | 基于注意力机制的多尺度神经网络红外图像彩色化方法 |
CN114863097B (zh) * | 2022-04-06 | 2024-05-31 | 北京航空航天大学 | 一种基于注意力机制卷积神经网络的红外弱小目标检测方法 |
CN114998195B (zh) * | 2022-04-21 | 2023-06-16 | 重庆理工大学 | 基于深度回归网络的猪b超图像脂肪含量检测方法 |
CN114998138B (zh) * | 2022-06-01 | 2024-05-28 | 北京理工大学 | 一种基于注意力机制的高动态范围图像去伪影方法 |
CN115115610B (zh) * | 2022-07-20 | 2023-08-22 | 南京航空航天大学 | 基于改进卷积神经网络的工业ct识别复材内部缺陷方法 |
CN115604061B (zh) * | 2022-08-30 | 2024-04-09 | 电子科技大学 | 一种基于外部注意力机制的射频信号调制方式识别方法 |
CN115272776B (zh) * | 2022-09-26 | 2023-01-20 | 山东锋士信息技术有限公司 | 基于双路卷积与双注意的高光谱图像分类方法及存储介质 |
CN115375589B (zh) * | 2022-10-25 | 2023-02-10 | 城云科技(中国)有限公司 | 一种去除图像阴影模型及其构建方法、装置及应用 |
CN115511882B (zh) * | 2022-11-09 | 2023-03-21 | 南京信息工程大学 | 一种基于病变权重特征图的黑色素瘤识别方法 |
CN115690522B (zh) * | 2022-12-29 | 2023-03-31 | 湖北工业大学 | 一种基于多池化融合通道注意力的目标检测方法及其应用 |
CN116664918A (zh) * | 2023-05-12 | 2023-08-29 | 杭州像素元科技有限公司 | 一种基于深度学习的收费站各车道通行状态检测的方法 |
CN116703928B (zh) * | 2023-08-08 | 2023-10-27 | 宁德市天铭新能源汽车配件有限公司 | 一种基于机器学习的汽车零部件生产检测方法及系统 |
CN118365974B (zh) * | 2024-06-20 | 2024-08-23 | 山东省水利科学研究院 | 一种基于混合神经网络的水质类别检测方法、系统及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565305B2 (en) * | 2016-11-18 | 2020-02-18 | Salesforce.Com, Inc. | Adaptive attention model for image captioning |
CN112734739B (zh) * | 2021-01-18 | 2022-07-08 | 福州大学 | 一种基于注意力机制与ResNet融合的建筑裂缝可视化识别方法 |
CN112819762B (zh) * | 2021-01-22 | 2022-10-18 | 南京邮电大学 | 一种基于伪孪生密集连接注意力机制的路面裂缝检测方法 |
CN112818862B (zh) * | 2021-02-02 | 2022-08-26 | 南京邮电大学 | 基于多源线索与混合注意力的人脸篡改检测方法与系统 |
CN113065594B (zh) * | 2021-04-01 | 2023-05-05 | 中科星图空间技术有限公司 | 一种基于北斗数据与遥感影像融合的路网提取方法及装置 |
-
2021
- 2021-08-12 CN CN202110922894.XA patent/CN113642634B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059582A (zh) * | 2019-03-28 | 2019-07-26 | 东南大学 | 基于多尺度注意力卷积神经网络的驾驶员行为识别方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113642634A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113642634B (zh) | 一种基于混合注意力的阴影检测方法 | |
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN110110624B (zh) | 一种基于DenseNet网络与帧差法特征输入的人体行为识别方法 | |
CN110245655B (zh) | 一种基于轻量级图像金字塔网络的单阶段物体检测方法 | |
CN113221641B (zh) | 基于生成对抗网络和注意力机制的视频行人重识别方法 | |
CN108520535B (zh) | 基于深度恢复信息的物体分类方法 | |
CN108460356B (zh) | 一种基于监控系统的人脸图像自动处理系统 | |
Thai et al. | Image classification using support vector machine and artificial neural network | |
CN114758288B (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN112348036A (zh) | 基于轻量化残差学习和反卷积级联的自适应目标检测方法 | |
CN110097028B (zh) | 基于三维金字塔图像生成网络的人群异常事件检测方法 | |
CN112801015A (zh) | 一种基于注意力机制的多模态人脸识别方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
Haque et al. | Two-handed bangla sign language recognition using principal component analysis (PCA) and KNN algorithm | |
CN110222636B (zh) | 基于背景抑制的行人属性识别方法 | |
Liu et al. | Pose-adaptive hierarchical attention network for facial expression recognition | |
CN114898284B (zh) | 一种基于特征金字塔局部差异注意力机制的人群计数方法 | |
CN111274987A (zh) | 人脸表情识别方法及人脸表情识别装置 | |
CN110532959B (zh) | 基于双通道三维卷积神经网络的实时暴力行为检测系统 | |
CN107025444A (zh) | 分块协同表示嵌入核稀疏表示遮挡人脸识别方法和装置 | |
US20110182497A1 (en) | Cascade structure for classifying objects in an image | |
CN110111365B (zh) | 基于深度学习的训练方法和装置以及目标跟踪方法和装置 | |
CN116453232A (zh) | 人脸活体检测方法、人脸活体检测模型的训练方法和装置 | |
CN115527104A (zh) | 无人艇感知系统检测方法 | |
Ren et al. | A lightweight object detection network in low-light conditions based on depthwise separable pyramid network and attention mechanism on embedded platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |