CN116452937A - 基于动态卷积与注意力机制的多模态特征目标检测方法 - Google Patents
基于动态卷积与注意力机制的多模态特征目标检测方法 Download PDFInfo
- Publication number
- CN116452937A CN116452937A CN202310454888.5A CN202310454888A CN116452937A CN 116452937 A CN116452937 A CN 116452937A CN 202310454888 A CN202310454888 A CN 202310454888A CN 116452937 A CN116452937 A CN 116452937A
- Authority
- CN
- China
- Prior art keywords
- feature
- convolution
- attention
- module
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 230000007246 mechanism Effects 0.000 title claims abstract description 31
- 230000004927 fusion Effects 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 13
- 238000010586 diagram Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 6
- 238000007670 refining Methods 0.000 claims description 4
- 210000000988 bone and bone Anatomy 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002902 bimodal effect Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/809—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
- G06V10/811—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及基于动态卷积与注意力机制的多模态特征目标检测方法,属于图像识别领域。该方法在YOLOv5的Backbone开始阶段有两条数据流,分别输入的可见光图像和红外光图像,并使用动态卷积模块ODConv和多光谱卷积注意力特征融合模块MS‑CBAM以及残差网络进行特征提取操作。本发明的优点在于结合了可见光图像与红外图像的特征,结合多种注意力机制与架构,大幅度提升多模态和小目标的目标检测精度,解决了在昏暗环境下目标检测性能弱的问题。相较于其他多模态融合目标检测,本发明训练速度快、硬件资源消耗低。
Description
技术领域
本发明属于图像识别领域,涉及基于动态卷积与注意力机制的多模态特征目标检测方法。
背景技术
目标检测是计算机视觉任务中非常重要的一项技术,其性能直接影响相关任务的检测精度和运算效率。因此,该领域一直受到学术界、工业界等各方面的关注。本发明讨论的目标检测旨在利用新的模态数据和新的模态融合方法提升整体网络性能。例如在夜晚,交通系统很可能面临监控录像光源不足,想要从单一光谱数据源实现对绝大多数违章行为进行拍照、监测行人与车辆、车祸自动报警等功能有一定的困难。由红外光摄像机所拍摄的红外图像增强夜晚时车辆和行人等物体的可见光图像特征,可以极大提高夜晚目标检测精度。因此如何利用大量的多光谱图像数据实现对目标识别与检测模型性能的提升,是一项极具研究价值和挑战的任务。多模态特征融合双流神经网络将这两种不同模态的信息整合进深度学习神经网络,大大改善目标检测领域对于上述问题的训练精度和准确度。然而现有的CNN的卷积感受野只能在局部区域进行信息融合,双流卷积神经网络不能很好地利用不同模态之间的互补性,简单地将特征图叠加会增加神经网络的学习难度,加剧模态不平衡,从而导致性能下降。本发明对于现有的YOLOv5神经网络模型进行改造,引入改进的通道注意力、空间注意力和动态卷积组成模态融合模块,使其在多种注意力下更加充分地对上述两种模态进行跨模态融合、学习和预测。同时,使用NWD定位损失函数增强小目标检测精度。
发明内容
有鉴于此,本发明的目的在于提供基于动态卷积与注意力机制的多模态特征目标检测方法。
为达到上述目的,本发明提供如下技术方案:
基于动态卷积与注意力机制的多模态特征目标检测方法,该方法包括以下步骤:
S1:建立基于YOLOv5的双流卷积检测网络的神经网络模型,其中Backbone采用卷积操作和特征融合模块进行模态融合与特征学习;
S2:采用通道注意力和空间注意力组成多光谱模块MS-CBAM,使用通道注意力分别对可见光与红外光图像特征图进行特征加权,之后将红外光与可见光图像堆叠至一起使用空间注意力对特征图进行特征加权,之后使用残差网络细化特征;
S3:对卷积结构引入多头注意力机制,通过对输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵,建立动态卷积ODConv模块;
S4:设置MS-CBAM模块作为80×80×256的特征图较大的位置进行输出,ODConv模块作为40×40×512和20×20×1024的特征图为中、小的位置进行输出;输出三个不等大小的特征图进入Neck层即特征金字塔,进行特征提取,对输出的特征进行预测,并输出预测结果;
S5:在训练阶段,可见光和红外光数据经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练;采用YOLO v5l预训练权重来进行初始化,并使用随机梯度下降算法来学习网络的参数;
在预测阶段,使用softmax分类器获得所属类别的最终分类概率;
在优化阶段,采用定位损失、分类损失、置信度损失联合优化的方式减少真实值与预测值之间的误差,并在定位损失中引入NWD,提升小目标检测的精度;不断重复S5,直到迭代次数达到设定的迭代次数时,模型训练完成,进行目标检测任务。
可选的,在所述S1中,基于YOLO v5的双流卷积目标检测网络框架的输入为不同模态的图像对,Backbone为双流卷积网络,双流神经网络模型包括Backbone、Neck、预测层;
设输入的可见光特征图为XV,输入的红外光特征图为XT,特征图的长、宽、通道数分别为H、W、C;
特征提取网络结构使用三个特征融合模块与残差网络组成三次特征提取循环与细化结构,第i次特征融合计算过程表示为:
其中σ为特征融合函数,可见光图像输入特征图为XV,红外光图像输入特征图为XT,F为特征融合模块,进行批量归一化运算;融合特征图的长、宽、通道数分别为H、W、2C;之后将融合特征与原始特征构建残差网络:
为可见光与红外光获取新的特征图ft i和
可选的,在所述S2中,对可见光和红外光输入图像,分别对二者进行通道注意力机制计算,之后进行特征图按照通道维度叠加的方式对特征图进行叠加,之后输入至空间注意力进行运算;
MS-CBAM模块的计算表示为:
X=MS[concat[MC(XV),MC(XT)]]
其中,MC代表通道注意力机制,MS代表空间注意力机制;Concat表示对特征图在通道维度进行堆叠;
之后对X构建残差网络进行细化,过程表示为:
X'V=XV+X
X'T=XT+X
最终获得的特征图为X'V∈VB×C×H×W、X'T∈TB×C×H×W,表示MS-CBAM模块的最终输出。
可选的,在所述S3中,在卷积过程中引入多头自注意力机制,在输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵ODConv,提升特征提取的能力;ODConv模块整体的运算表示为:
X'=ODConv(concat(XV,XT))
其中,XV和XT分别为可见光与红外光模态的特征图输入,concat代表两个输入沿着通道数维度进行叠加,ODConv代表动态卷积操作;
其综合了四个维度的动态卷积公式表示为:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
为卷积核维度Wi的注意力系数矩阵,/>和/>分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算。
可选的,所述MS-CBAM模块与ODConv模块输入与输出均为可见光与红外光特征图,输出将与输入组成残差网络;
所述定位损失、分类损失、置信度损失的损失函数表达为:
Ltotal=Lbox+Lcls+Lconf
其中,定位损失采用的是NWD损失函数;NWD损失函数通过引入NormalizedWasserstein Distance计算方法,通过对应的高斯分布来计算相似性。
本发明的有益效果在于:本发明可以很好地优化对于图像整体或部分亮度不足的条件下目标检测,并且在预测精度和可靠性方面,应用于目标检测系统时更加具有优势。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明整体架构流程图;
图2为本发明Backbone流程图;
图3为动态卷积特征融合模块结构图;
图4为MS-CBAM特征融合模块结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供的一种基于动态卷积与注意力机制和YOLO v5双流网络的目标检测方法,如图1所示,该方法包括以下步骤:
步骤1:在步骤1中构建基本双流神经网络模型,如图2所示,YOLO v5包括数据处理、Backbone、Neck、预测层,以及本发明设计了一种基于动态卷积特征融合模块、MS-CBAM多模态循环融合与细化的特征提取与融合思路,将融合操作重复多次并加以残差处理,以增加多光谱特征的一致性。
步骤2:在步骤2中构建基于输入通道、输出通道、空间与卷积核四个维度赋予卷积不同的注意力系数矩阵的动态卷积ODConv,如图3所示,利用一种多头注意力机制和并行策略来学习卷积核中四个维度上的模态互补注意力。
步骤3:构建基于通道注意力和空间注意力的MS-CBAM模块,如图4所示,分别在通道维度和空间维度对特征图进行加权,并利用残差网络进行特征细化。
步骤4:设置MS-CBAM模块作为80×80×256的特征图较大的位置进行输出,ODConv模块作为40×40×512和20×20×1024的特征图为中、小大小的位置进行输出。将特征图输入至YOLO v5的特征金字塔,继续进行YOLO v5的特征融合与预测;
步骤5:采用训练样本对确定参数后的神经网络进行训练直至满足训练条件,采用测试集对训练后的神经网络进行测试;
在步骤1中,本发明基于YOLO v5的Neck与Head层进行预测,并建立基于双流卷积网络的基线网络,其特征在于首先使用卷积网络提取可见光与红外光双模态各自的局部特征,之后使用特征融合模块进行特征加权融合操作。
首先,经过步骤1处理过后的可见光与红外光图像分别进行三次卷积操作,卷积后的可见光、红外光特征图表示为XV、XT。
本发明设计了一种使用MS-CBAM模块与ODConv模块组成残差网络的特征融合方式进行特征融合的操作。如图2所示,模块与残差网络共同构建出特征循环融合与细化的特征提取与融合思路。本发明将特征融合操作分别在YOLO v5网络中80×80×256、40×40×512、20×20×1024三个地方,即图2中的P3、P4、P5代表的大、中、小三个特征图进入特征金字塔。本发明的特征循环融合与细化结构可以增加多光谱特征的一致性。设在第i个融合模块中,为了获取新的融合特征f,可见光图像特征XV与红外光图像特征XT的融合过程可以被表示为:
其中σ为特征融合函数,F为特征融合模块。
为了避免过度拟合,所有循环中的操作F共享权重,然后将融合特征与原始特征构建残差网络:
为了防止学习网络参数时的消失梯度问题,并更好地进行多光谱特征融合,使用辅助语义分割任务为每个细化的光谱特征带来单独的信息。
模态之间的相似性随着循环数量的增加而增加,而随着光谱特征之间相似性的增加,它们的一致性增加,互补性降低。多光谱特征之间的一致性非常重要,但是相反,一致性过多则会导致特征值的急剧上升或下降,多余的循环融合毫无意义。经实验,第四次循环及之后,特征融合性能开始下降,所以在实践中,我们选用三次循环来平衡一致性与互补性。
同时,三个特征融合模块将分三次向特征金字塔输入大、中、小三种经过处理的特征图。
进一步,在步骤2中,本发明以使用对卷积核维度进行多头自注意力机制运算的动态卷积进行举例说明。对于动态卷积层,它使用n个卷积核的线性组合,通过注意力机制动态加权,使卷积运算依赖于输入的特征图。ODConv整体的运算可以表示为:
X'=ODConv(concat(Xv,XT))
其中,XV和XT分别为可见光与红外光模态的特征图输入,concat代表两个输入沿着通道数维度进行叠加,ODConv代表动态卷积操作。
具体地,在数学上,可以定义单维度上的动态卷积运算为:
y=(αw1W1+...+αwnWn)*x
其中,和/>分别代表高为h,宽为w,通道数为c的特征图矩阵的输入和输出。Wi表示由输出卷积滤波器/>组成的第i个卷积核,m=1,…,cout。为卷积核维度的注意力系数矩阵,其由以输入特征为条件的注意力函数πwi(x)计算;*表示卷积运算,这里省略了偏置项。
根据动态卷积计算等式,动态卷积有两个基本组成部分:给定n个卷积核,卷积核Wi和用于计算其注意力标量的注意力函数对应的核空间中具有关于空间核大小为k×k的四个维度,每个卷积核具有输入通道数cin和输出通道数cout。
本发明中的ODConv模块同时兼顾卷积核维度、空间维度、输入通道维度和输出通道维度,这使卷积运算中的多模态特征融合更加全面,其每个维度的公式与卷积核维度的动态卷积相似。如图3所示,其综合了四个维度的动态卷积公式可以表示为:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
为卷积核Wi的注意力系数矩阵,/>和/>分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算。
其中,αsi在k×k个空间位置为每个卷积滤波器分配不同的注意力标量;αci为每个卷积滤波器Wi m的cin通道分配不同的注意力标量;αfi为每个卷积滤波器Wi m的cout通道分配不同的注意力标量;αwi将注意力标量分配给整个卷积核。其将这四种维度的注意力系数矩阵与给n个卷积核的对应维度相乘,得出模块的输出。
具体地,首先通过全局平均池化操作将输入X压缩为具有cin长度的特征向量,经过全连接层与ReLU单元,全连接层将压缩的特征向量映射到具有缩减率r的低维空间。之后经过四个分支,每个分支对应上述四种维度,其均有一个输出大小为k×k、cin×1、cout×1和n×1的FC层,以及一个Softmax或Sigmoid函数,分别生成归一化注意力系数矩阵αsi、αci、αfi和αwi。
由于这四种维度是互补的,并且能够捕获丰富的上下文线索。因此,ODConv可以显著增强CNN基本卷积运算的特征提取能力。
进一步,在步骤3中建立基于通道注意力和空间注意力的MS-CBAM模块,分别在通道维度和空间维度对特征图进行加权,并利用残差网络进行特征细化。
对于输入的特征图XV∈VB×C×H×W,XT∈TB×C×H×W,其中V代表可见光图像,T代表红外光图像、B代表Batch Size,C代表通道数,H、W分别代表特征图的长和宽,单位是像素。MS-CBAM模块的计算可以表示为:
X=Ms[concat[Mc(XV),Mc(XT)]]
其中,Mc代表通道注意力机制,Ms代表空间注意力机制。Concat表示对特征图在通道维度进行堆叠,X代表模块输出。通过通道注意力和空间注意力可以在通道维度与空间维度进行特征加权,可以减少单独使用某一种类型的池化操作而带来的不良影响,并增加神经网络的准确度性能。
通道注意力模块(Channel Attention Module,CAM)通过学习每个通道之间的相互作用来提高特征图的表示能力。具体地,通道注意力模块首先对输入特征图中的每个通道依次进行最大池化与平均池化操作,得到最大池化和平均池化的特征图。然后将这两个特征图作为输入,通过两个全连接层和Sigmoid函数得到每个通道的权重,将通道权重与原始特征图相乘得到加权特征图。通道注意力机制可以表达为:
式中,和/>分别表示平均池化和最大池化。
空间注意力模块(SpatialAttention Module,SAM)通过学习特征图中每个像素之间的相互作用来提高特征图的表示能力。该模块的输入特征图是通道注意力模块输出的特征图。首先对于一个输入特征图,空间注意力模块首先对其进行最大池化和平均池化操作,得到最大池化和平均池化特征图。然后将这两个特征图拼接起来,通过一个卷积层和Sigmoid函数得到每个像素的权重,将像素权重与原始特征图相乘得到加权特征图。然后,对可见光和红外光特征图的通道维度分别进行了平均值池化和最大值池化,得到两个大小为的特征图。接着,这两个特征图在通道维度上进行拼接操作,得到一个大小为的特征图。最后,该特征图经过一个7×7的卷积操作降维为1个通道,然后通过Sigmoid激活函数生成空间注意力特征。
最后,将空间注意力的输出特征与输入特征进行逐元素相乘,得到最终生成的特征。空间注意力机制可以表示为:
式中,和/>分别表示平均池化和最大池化。
本发明使用通道注意力和空间注意力,之后对X构建残差网络进行细化,过程可以表示为:
X'V=XV+X
X'T=XT+X
最终获得的特征图为X'V∈VB×C×H×W、X'T∈TB×C×H×W,表示MS-CBAM模块的最终输出。
进一步,在步骤4中,对特征图大小H、W、C分别为80×80×256、40×40×512、20×20×1024即图2中P3、P4、P5的三个位置的特征图分别使用MS-CBAM、ODConv、ODConv进行多模态特征融合,之后对这三个大、中、小三个特征图输入进YOLO v5 Neck特征金字塔中进行进一步的特征融合与提取。
在步骤5中,损失函数分为定位损失、分类损失、置信度损失,可以表示为:
其中定位损失采用的是与NWD,其他损失采用YOLO v5默认损失函数:
NWD使用基于Wasserstein距离的度量方式,使得小目标检测性能得到大幅度提高。
对于小目标来说,包围框里总是会有一些背景像素的,因为真实的物体不可能正好是个矩形。在包围框中,前景像素一般集中在中间,背景像素一般集中在边上。为了更好地对包围框中的每个像素进行加权,可以将包围框建模成一个2D的高斯分布。具体来说,对于水平的包围框R=(cx,cy,w,h),用内接椭圆可以表示为:
其中,(μx,μy)是椭圆的中心点,(σx,σy)是x和y轴的半径。对应到包围框中:
μx=cx,μy=cy,
2D高斯分布的概率密度函数为:
其中,X,μ,∑分别表示坐标(x,y),均值和方差。当:
这个椭圆就是2D高斯分布的一个分布轮廓。因此,水平包围框R=(cx,cy,w,h)可以建模为一个2D高斯分布:
这样一来,两个包围框之间的相似度可以用这两个高斯分布之间的距离来表示。
紧接着,本发明使用最优传输理论中的Wasserstein距离来计算两个分布的距离。对于两个2D高斯分布,其2阶Wasserstein距离可以定义为:
即:
对于两个包围框来说:
但是,这是个距离度量,不能直接用于相似度。我们用归一化后的指数来得到一个新的度量,叫做归一化的Wasserstein距离:
这里C是一个常数,和数据集有关。
之后,对构建好的模型输入数据集进行训练,每迭代一个epoch则保存当前epoch的模型参数,并比较当前epoch的分类精度与之前的最优模型的分类精度。当达到设定的最大epoch时,输出识别准确度最优的行人目标识别模型。完成训练后的模型可以实现对光线不好的环境下目标的检测与识别,包括人、动物、汽车、其他交通工具以及障碍物等物体的检测识别。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:该方法包括以下步骤:
S1:建立基于YOLOv5的双流卷积检测网络的神经网络模型,其中Backbone采用卷积操作和特征融合模块进行模态融合与特征学习;
S2:采用通道注意力和空间注意力组成多光谱模块MS-CBAM,使用通道注意力分别对可见光与红外光图像特征图进行特征加权,之后将红外光与可见光图像堆叠至一起使用空间注意力对特征图进行特征加权,之后使用残差网络细化特征;
S3:对卷积结构引入多头注意力机制,通过对输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵,建立动态卷积ODConv模块;
S4:设置MS-CBAM模块作为80×80×256的特征图较大的位置进行输出,ODConv模块作为40×40×512和20×20×1024的特征图为中、小的位置进行输出;输出三个不等大小的特征图进入Neck层即特征金字塔,进行特征提取,对输出的特征进行预测,并输出预测结果;
S5:在训练阶段,可见光和红外光数据经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练;采用YOLOv5l预训练权重来进行初始化,并使用随机梯度下降算法来学习网络的参数;
在预测阶段,使用softmax分类器获得所属类别的最终分类概率;
在优化阶段,采用定位损失、分类损失、置信度损失联合优化的方式减少真实值与预测值之间的误差,并在定位损失中引入NWD,提升小目标检测的精度;不断重复S5,直到迭代次数达到设定的迭代次数时,模型训练完成,进行目标检测任务。
2.根据权利要求1所述的基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:在所述S1中,基于YOLOv5的双流卷积目标检测网络框架的输入为不同模态的图像对,Backbone为双流卷积网络,双流神经网络模型包括Backbone、Neck、预测层;
设输入的可见光特征图为XV,输入的红外光特征图为XT,特征图的长、宽、通道数分别为H、W、C;
特征提取网络结构使用三个特征融合模块与残差网络组成三次特征提取循环与细化结构,第i次特征融合计算过程表示为:
其中σ为特征融合函数,可见光图像输入特征图为XV,红外光图像输入特征图为XT,F为特征融合模块,进行批量归一化运算;融合特征图的长、宽、通道数分别为H、W、2C;之后将融合特征与原始特征构建残差网络:
为可见光与红外光获取新的特征图ft i和
3.根据权利要求2所述的基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:在所述S2中,对可见光和红外光输入图像,分别对二者进行通道注意力机制计算,之后进行特征图按照通道维度叠加的方式对特征图进行叠加,之后输入至空间注意力进行运算;
MS-CBAM模块的计算表示为:
X=MS[concat[MC(XV),MC(XT)]]
其中,MC代表通道注意力机制,MS代表空间注意力机制;Concat表示对特征图在通道维度进行堆叠;
之后对X构建残差网络进行细化,过程表示为:
X'V=XV+X
X'T=XT+X
最终获得的特征图为X'V∈VB×C×H×W、X'T∈TB×C×H×W,表示MS-CBAM模块的最终输出。
4.根据权利要求3所述的基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:在所述S3中,在卷积过程中引入多头自注意力机制,在输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵ODConv,提升特征提取的能力;ODConv模块整体的运算表示为:
X'=ODConv(concat(XV,XT))
其中,XV和XT分别为可见光与红外光模态的特征图输入,concat代表两个输入沿着通道数维度进行叠加,ODConv代表动态卷积操作;
其综合了四个维度的动态卷积公式表示为:
y=(αw1⊙αf1⊙αc1⊙αs1⊙W1+...+αwn⊙αfn⊙αcn⊙αsn⊙Wn)*x
为卷积核维度Wi的注意力系数矩阵,/>和/>分别表示沿着卷积核Wi中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵,⊙表示沿着核空间的不同维度的乘法运算。
5.根据权利要求4所述的基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:所述MS-CBAM模块与ODConv模块输入与输出均为可见光与红外光特征图,输出将与输入组成残差网络;
所述定位损失、分类损失、置信度损失的损失函数表达为:
Ltotal=Lbox+Lcls+Lconf
其中,定位损失采用的是NWD损失函数;NWD损失函数通过引入NormalizedWasserstein Distance计算方法,通过对应的高斯分布来计算相似性。
6.根据权利要求5所述的基于动态卷积与注意力机制的多模态特征目标检测方法,其特征在于:所述NWD损失函数表示为:
其中,为Wasserstein距离,/>为两个高斯分布之间的距离,C为与数据集相关的固定常数,提升小目标的检测性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310454888.5A CN116452937A (zh) | 2023-04-25 | 2023-04-25 | 基于动态卷积与注意力机制的多模态特征目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310454888.5A CN116452937A (zh) | 2023-04-25 | 2023-04-25 | 基于动态卷积与注意力机制的多模态特征目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116452937A true CN116452937A (zh) | 2023-07-18 |
Family
ID=87125416
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310454888.5A Pending CN116452937A (zh) | 2023-04-25 | 2023-04-25 | 基于动态卷积与注意力机制的多模态特征目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452937A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN116883825A (zh) * | 2023-07-26 | 2023-10-13 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN116977880A (zh) * | 2023-08-25 | 2023-10-31 | 内蒙古农业大学 | 一种基于无人机图像的草地鼠洞检测方法 |
CN117690161A (zh) * | 2023-12-12 | 2024-03-12 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117893537A (zh) * | 2024-03-14 | 2024-04-16 | 深圳市普拉托科技有限公司 | 托盘表面材质的脱色检测方法及系统 |
CN117893475A (zh) * | 2023-12-15 | 2024-04-16 | 航天科工空天动力研究院(苏州)有限责任公司 | 基于多维注意力机制的高精度pcb微小缺陷检测算法 |
CN117935012A (zh) * | 2024-01-31 | 2024-04-26 | 广东海洋大学 | 一种基于分布式结构的红外与可见光图像融合网络 |
CN118521837A (zh) * | 2024-07-23 | 2024-08-20 | 诺比侃人工智能科技(成都)股份有限公司 | 一种接触网缺陷智能检测模型的快速迭代方法 |
-
2023
- 2023-04-25 CN CN202310454888.5A patent/CN116452937A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665176A (zh) * | 2023-07-21 | 2023-08-29 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN116665176B (zh) * | 2023-07-21 | 2023-09-26 | 石家庄铁道大学 | 一种面向车辆自动驾驶的多任务网络道路目标检测方法 |
CN116883825A (zh) * | 2023-07-26 | 2023-10-13 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN116883825B (zh) * | 2023-07-26 | 2024-08-02 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN116977880A (zh) * | 2023-08-25 | 2023-10-31 | 内蒙古农业大学 | 一种基于无人机图像的草地鼠洞检测方法 |
CN117690161B (zh) * | 2023-12-12 | 2024-06-04 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117690161A (zh) * | 2023-12-12 | 2024-03-12 | 上海工程技术大学 | 一种基于图像融合的行人检测方法、设备和介质 |
CN117893475A (zh) * | 2023-12-15 | 2024-04-16 | 航天科工空天动力研究院(苏州)有限责任公司 | 基于多维注意力机制的高精度pcb微小缺陷检测算法 |
CN117935012A (zh) * | 2024-01-31 | 2024-04-26 | 广东海洋大学 | 一种基于分布式结构的红外与可见光图像融合网络 |
CN117935012B (zh) * | 2024-01-31 | 2024-11-01 | 广东海洋大学 | 一种基于分布式结构的红外与可见光图像融合网络 |
CN117893537B (zh) * | 2024-03-14 | 2024-05-28 | 深圳市普拉托科技有限公司 | 托盘表面材质的脱色检测方法及系统 |
CN117893537A (zh) * | 2024-03-14 | 2024-04-16 | 深圳市普拉托科技有限公司 | 托盘表面材质的脱色检测方法及系统 |
CN118521837A (zh) * | 2024-07-23 | 2024-08-20 | 诺比侃人工智能科技(成都)股份有限公司 | 一种接触网缺陷智能检测模型的快速迭代方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116452937A (zh) | 基于动态卷积与注意力机制的多模态特征目标检测方法 | |
CN111767882B (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN110298262B (zh) | 物体识别方法及装置 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN109902806B (zh) | 基于卷积神经网络的噪声图像目标边界框确定方法 | |
CN108229468B (zh) | 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN114220124A (zh) | 一种近红外-可见光跨模态双流行人重识别方法及系统 | |
CN111291809B (zh) | 一种处理装置、方法及存储介质 | |
CN113420607A (zh) | 无人机多尺度目标检测识别方法 | |
CN114445430B (zh) | 轻量级多尺度特征融合的实时图像语义分割方法及系统 | |
CN113807464A (zh) | 基于改进yolo v5的无人机航拍图像目标检测方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN110097029B (zh) | 基于Highway网络多视角步态识别的身份认证方法 | |
CN113326735B (zh) | 一种基于YOLOv5的多模态小目标检测方法 | |
CN115512251A (zh) | 基于双分支渐进式特征增强的无人机低照度目标跟踪方法 | |
WO2022217434A1 (zh) | 感知网络、感知网络的训练方法、物体识别方法及装置 | |
CN113298032A (zh) | 基于深度学习的无人机视角图像的车辆目标检测方法 | |
CN116912485A (zh) | 一种基于热感图像和可见光图像特征融合的场景语义分割方法 | |
CN114170526A (zh) | 基于轻量化网络的遥感影像多尺度目标检测识别方法 | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
Barodi et al. | An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement | |
CN113870160A (zh) | 一种基于变换器神经网络的点云数据处理方法 | |
CN113205103A (zh) | 一种轻量级的文身检测方法 | |
CN113065637B (zh) | 一种感知网络及数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |