CN116452937A

CN116452937A - 基于动态卷积与注意力机制的多模态特征目标检测方法

Info

Publication number: CN116452937A
Application number: CN202310454888.5A
Authority: CN
Inventors: 许国良; 王钰
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-18

Abstract

本发明涉及基于动态卷积与注意力机制的多模态特征目标检测方法，属于图像识别领域。该方法在YOLOv5的Backbone开始阶段有两条数据流，分别输入的可见光图像和红外光图像，并使用动态卷积模块ODConv和多光谱卷积注意力特征融合模块MS‑CBAM以及残差网络进行特征提取操作。本发明的优点在于结合了可见光图像与红外图像的特征，结合多种注意力机制与架构，大幅度提升多模态和小目标的目标检测精度，解决了在昏暗环境下目标检测性能弱的问题。相较于其他多模态融合目标检测，本发明训练速度快、硬件资源消耗低。

Description

基于动态卷积与注意力机制的多模态特征目标检测方法

技术领域

本发明属于图像识别领域，涉及基于动态卷积与注意力机制的多模态特征目标检测方法。

背景技术

目标检测是计算机视觉任务中非常重要的一项技术，其性能直接影响相关任务的检测精度和运算效率。因此，该领域一直受到学术界、工业界等各方面的关注。本发明讨论的目标检测旨在利用新的模态数据和新的模态融合方法提升整体网络性能。例如在夜晚，交通系统很可能面临监控录像光源不足，想要从单一光谱数据源实现对绝大多数违章行为进行拍照、监测行人与车辆、车祸自动报警等功能有一定的困难。由红外光摄像机所拍摄的红外图像增强夜晚时车辆和行人等物体的可见光图像特征，可以极大提高夜晚目标检测精度。因此如何利用大量的多光谱图像数据实现对目标识别与检测模型性能的提升，是一项极具研究价值和挑战的任务。多模态特征融合双流神经网络将这两种不同模态的信息整合进深度学习神经网络，大大改善目标检测领域对于上述问题的训练精度和准确度。然而现有的CNN的卷积感受野只能在局部区域进行信息融合，双流卷积神经网络不能很好地利用不同模态之间的互补性，简单地将特征图叠加会增加神经网络的学习难度，加剧模态不平衡，从而导致性能下降。本发明对于现有的YOLOv5神经网络模型进行改造，引入改进的通道注意力、空间注意力和动态卷积组成模态融合模块，使其在多种注意力下更加充分地对上述两种模态进行跨模态融合、学习和预测。同时，使用NWD定位损失函数增强小目标检测精度。

发明内容

有鉴于此，本发明的目的在于提供基于动态卷积与注意力机制的多模态特征目标检测方法。

为达到上述目的，本发明提供如下技术方案：

基于动态卷积与注意力机制的多模态特征目标检测方法，该方法包括以下步骤：

S1：建立基于YOLOv5的双流卷积检测网络的神经网络模型，其中Backbone采用卷积操作和特征融合模块进行模态融合与特征学习；

S2：采用通道注意力和空间注意力组成多光谱模块MS-CBAM，使用通道注意力分别对可见光与红外光图像特征图进行特征加权，之后将红外光与可见光图像堆叠至一起使用空间注意力对特征图进行特征加权，之后使用残差网络细化特征；

S3：对卷积结构引入多头注意力机制，通过对输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵，建立动态卷积ODConv模块；

S4：设置MS-CBAM模块作为80×80×256的特征图较大的位置进行输出，ODConv模块作为40×40×512和20×20×1024的特征图为中、小的位置进行输出；输出三个不等大小的特征图进入Neck层即特征金字塔，进行特征提取，对输出的特征进行预测，并输出预测结果；

S5：在训练阶段，可见光和红外光数据经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练；采用YOLO v5l预训练权重来进行初始化，并使用随机梯度下降算法来学习网络的参数；

在预测阶段，使用softmax分类器获得所属类别的最终分类概率；

在优化阶段，采用定位损失、分类损失、置信度损失联合优化的方式减少真实值与预测值之间的误差，并在定位损失中引入NWD，提升小目标检测的精度；不断重复S5，直到迭代次数达到设定的迭代次数时，模型训练完成，进行目标检测任务。

可选的，在所述S1中，基于YOLO v5的双流卷积目标检测网络框架的输入为不同模态的图像对，Backbone为双流卷积网络，双流神经网络模型包括Backbone、Neck、预测层；

设输入的可见光特征图为X_V，输入的红外光特征图为X_T，特征图的长、宽、通道数分别为H、W、C；

特征提取网络结构使用三个特征融合模块与残差网络组成三次特征提取循环与细化结构，第i次特征融合计算过程表示为：

其中σ为特征融合函数，可见光图像输入特征图为X_V，红外光图像输入特征图为X_T，F为特征融合模块，进行批量归一化运算；融合特征图的长、宽、通道数分别为H、W、2C；之后将融合特征与原始特征构建残差网络：

为可见光与红外光获取新的特征图f_t ⁱ和

可选的，在所述S2中，对可见光和红外光输入图像，分别对二者进行通道注意力机制计算，之后进行特征图按照通道维度叠加的方式对特征图进行叠加，之后输入至空间注意力进行运算；

MS-CBAM模块的计算表示为：

X＝M_S[concat[M_C(X_V),M_C(X_T)]]

其中，M_C代表通道注意力机制，M_S代表空间注意力机制；Concat表示对特征图在通道维度进行堆叠；

之后对X构建残差网络进行细化，过程表示为：

X'_V＝X_V+X

X'_T＝X_T+X

最终获得的特征图为X'_V∈V^B×C×H×W、X'_T∈T^B×C×H×W，表示MS-CBAM模块的最终输出。

可选的，在所述S3中，在卷积过程中引入多头自注意力机制，在输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵ODConv，提升特征提取的能力；ODConv模块整体的运算表示为：

X'＝ODConv(concat(X_V,X_T))

其中，X_V和X_T分别为可见光与红外光模态的特征图输入，concat代表两个输入沿着通道数维度进行叠加，ODConv代表动态卷积操作；

其综合了四个维度的动态卷积公式表示为：

y＝(α_w1⊙α_f1⊙α_c1⊙α_s1⊙W₁+...+α_wn⊙α_fn⊙α_cn⊙α_sn⊙W_n)*x

为卷积核维度W_i的注意力系数矩阵，/>和/>分别表示沿着卷积核W_i中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵，⊙表示沿着核空间的不同维度的乘法运算。

可选的，所述MS-CBAM模块与ODConv模块输入与输出均为可见光与红外光特征图，输出将与输入组成残差网络；

所述定位损失、分类损失、置信度损失的损失函数表达为：

L_total＝L_box+L_cls+L_conf

其中，定位损失采用的是NWD损失函数；NWD损失函数通过引入NormalizedWasserstein Distance计算方法，通过对应的高斯分布来计算相似性。

本发明的有益效果在于：本发明可以很好地优化对于图像整体或部分亮度不足的条件下目标检测，并且在预测精度和可靠性方面，应用于目标检测系统时更加具有优势。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明整体架构流程图；

图2为本发明Backbone流程图；

图3为动态卷积特征融合模块结构图；

图4为MS-CBAM特征融合模块结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明提供的一种基于动态卷积与注意力机制和YOLO v5双流网络的目标检测方法，如图1所示，该方法包括以下步骤：

步骤1：在步骤1中构建基本双流神经网络模型，如图2所示，YOLO v5包括数据处理、Backbone、Neck、预测层，以及本发明设计了一种基于动态卷积特征融合模块、MS-CBAM多模态循环融合与细化的特征提取与融合思路，将融合操作重复多次并加以残差处理，以增加多光谱特征的一致性。

步骤2：在步骤2中构建基于输入通道、输出通道、空间与卷积核四个维度赋予卷积不同的注意力系数矩阵的动态卷积ODConv，如图3所示，利用一种多头注意力机制和并行策略来学习卷积核中四个维度上的模态互补注意力。

步骤3：构建基于通道注意力和空间注意力的MS-CBAM模块，如图4所示，分别在通道维度和空间维度对特征图进行加权，并利用残差网络进行特征细化。

步骤4：设置MS-CBAM模块作为80×80×256的特征图较大的位置进行输出，ODConv模块作为40×40×512和20×20×1024的特征图为中、小大小的位置进行输出。将特征图输入至YOLO v5的特征金字塔，继续进行YOLO v5的特征融合与预测；

步骤5：采用训练样本对确定参数后的神经网络进行训练直至满足训练条件，采用测试集对训练后的神经网络进行测试；

在步骤1中，本发明基于YOLO v5的Neck与Head层进行预测，并建立基于双流卷积网络的基线网络，其特征在于首先使用卷积网络提取可见光与红外光双模态各自的局部特征，之后使用特征融合模块进行特征加权融合操作。

首先，经过步骤1处理过后的可见光与红外光图像分别进行三次卷积操作，卷积后的可见光、红外光特征图表示为X_V、X_T。

本发明设计了一种使用MS-CBAM模块与ODConv模块组成残差网络的特征融合方式进行特征融合的操作。如图2所示，模块与残差网络共同构建出特征循环融合与细化的特征提取与融合思路。本发明将特征融合操作分别在YOLO v5网络中80×80×256、40×40×512、20×20×1024三个地方，即图2中的P3、P4、P5代表的大、中、小三个特征图进入特征金字塔。本发明的特征循环融合与细化结构可以增加多光谱特征的一致性。设在第i个融合模块中，为了获取新的融合特征f，可见光图像特征X_V与红外光图像特征X_T的融合过程可以被表示为：

其中σ为特征融合函数，F为特征融合模块。

为了避免过度拟合，所有循环中的操作F共享权重，然后将融合特征与原始特征构建残差网络：

为了防止学习网络参数时的消失梯度问题，并更好地进行多光谱特征融合，使用辅助语义分割任务为每个细化的光谱特征带来单独的信息。

模态之间的相似性随着循环数量的增加而增加，而随着光谱特征之间相似性的增加，它们的一致性增加，互补性降低。多光谱特征之间的一致性非常重要，但是相反，一致性过多则会导致特征值的急剧上升或下降，多余的循环融合毫无意义。经实验，第四次循环及之后，特征融合性能开始下降，所以在实践中，我们选用三次循环来平衡一致性与互补性。

同时，三个特征融合模块将分三次向特征金字塔输入大、中、小三种经过处理的特征图。

进一步，在步骤2中，本发明以使用对卷积核维度进行多头自注意力机制运算的动态卷积进行举例说明。对于动态卷积层，它使用n个卷积核的线性组合，通过注意力机制动态加权，使卷积运算依赖于输入的特征图。ODConv整体的运算可以表示为：

X'＝ODConv(concat(X_v,X_T))

其中，X_V和X_T分别为可见光与红外光模态的特征图输入，concat代表两个输入沿着通道数维度进行叠加，ODConv代表动态卷积操作。

具体地，在数学上，可以定义单维度上的动态卷积运算为：

y＝(α_w1W₁+...+α_wnW_n)*x

其中，和/>分别代表高为h，宽为w，通道数为c的特征图矩阵的输入和输出。W_i表示由输出卷积滤波器/>组成的第i个卷积核，m＝1,…,c_out。为卷积核维度的注意力系数矩阵，其由以输入特征为条件的注意力函数π_wi(x)计算；*表示卷积运算，这里省略了偏置项。

根据动态卷积计算等式，动态卷积有两个基本组成部分：给定n个卷积核，卷积核W_i和用于计算其注意力标量的注意力函数对应的核空间中具有关于空间核大小为k×k的四个维度，每个卷积核具有输入通道数c_in和输出通道数c_out。

本发明中的ODConv模块同时兼顾卷积核维度、空间维度、输入通道维度和输出通道维度，这使卷积运算中的多模态特征融合更加全面，其每个维度的公式与卷积核维度的动态卷积相似。如图3所示，其综合了四个维度的动态卷积公式可以表示为：

为卷积核W_i的注意力系数矩阵，/>和/>分别表示沿着卷积核W_i中的空间维度、输入通道维度、输出通道维度上的动态卷积注意力系数矩阵，⊙表示沿着核空间的不同维度的乘法运算。

其中，α_si在k×k个空间位置为每个卷积滤波器分配不同的注意力标量；α_ci为每个卷积滤波器W_i ^m的c_in通道分配不同的注意力标量；α_fi为每个卷积滤波器W_i ^m的c_out通道分配不同的注意力标量；α_wi将注意力标量分配给整个卷积核。其将这四种维度的注意力系数矩阵与给n个卷积核的对应维度相乘，得出模块的输出。

具体地，首先通过全局平均池化操作将输入X压缩为具有c_in长度的特征向量，经过全连接层与ReLU单元，全连接层将压缩的特征向量映射到具有缩减率r的低维空间。之后经过四个分支，每个分支对应上述四种维度，其均有一个输出大小为k×k、c_in×1、c_out×1和n×1的FC层，以及一个Softmax或Sigmoid函数，分别生成归一化注意力系数矩阵α_si、α_ci、α_fi和α_wi。

由于这四种维度是互补的，并且能够捕获丰富的上下文线索。因此，ODConv可以显著增强CNN基本卷积运算的特征提取能力。

进一步，在步骤3中建立基于通道注意力和空间注意力的MS-CBAM模块，分别在通道维度和空间维度对特征图进行加权，并利用残差网络进行特征细化。

对于输入的特征图X_V∈V^B×C×H×W，X_T∈T^B×C×H×W，其中V代表可见光图像，T代表红外光图像、B代表Batch Size，C代表通道数，H、W分别代表特征图的长和宽，单位是像素。MS-CBAM模块的计算可以表示为：

X＝M_s[concat[M_c(X_V),M_c(X_T)]]

其中，M_c代表通道注意力机制，M_s代表空间注意力机制。Concat表示对特征图在通道维度进行堆叠，X代表模块输出。通过通道注意力和空间注意力可以在通道维度与空间维度进行特征加权，可以减少单独使用某一种类型的池化操作而带来的不良影响，并增加神经网络的准确度性能。

通道注意力模块(Channel Attention Module，CAM)通过学习每个通道之间的相互作用来提高特征图的表示能力。具体地，通道注意力模块首先对输入特征图中的每个通道依次进行最大池化与平均池化操作，得到最大池化和平均池化的特征图。然后将这两个特征图作为输入，通过两个全连接层和Sigmoid函数得到每个通道的权重，将通道权重与原始特征图相乘得到加权特征图。通道注意力机制可以表达为：

式中，和/>分别表示平均池化和最大池化。

空间注意力模块(SpatialAttention Module，SAM)通过学习特征图中每个像素之间的相互作用来提高特征图的表示能力。该模块的输入特征图是通道注意力模块输出的特征图。首先对于一个输入特征图，空间注意力模块首先对其进行最大池化和平均池化操作，得到最大池化和平均池化特征图。然后将这两个特征图拼接起来，通过一个卷积层和Sigmoid函数得到每个像素的权重，将像素权重与原始特征图相乘得到加权特征图。然后，对可见光和红外光特征图的通道维度分别进行了平均值池化和最大值池化，得到两个大小为的特征图。接着，这两个特征图在通道维度上进行拼接操作，得到一个大小为的特征图。最后，该特征图经过一个7×7的卷积操作降维为1个通道，然后通过Sigmoid激活函数生成空间注意力特征。

最后，将空间注意力的输出特征与输入特征进行逐元素相乘，得到最终生成的特征。空间注意力机制可以表示为：

式中，和/>分别表示平均池化和最大池化。

本发明使用通道注意力和空间注意力，之后对X构建残差网络进行细化，过程可以表示为：

X'_V＝X_V+X

X'_T＝X_T+X

进一步，在步骤4中，对特征图大小H、W、C分别为80×80×256、40×40×512、20×20×1024即图2中P3、P4、P5的三个位置的特征图分别使用MS-CBAM、ODConv、ODConv进行多模态特征融合，之后对这三个大、中、小三个特征图输入进YOLO v5 Neck特征金字塔中进行进一步的特征融合与提取。

在步骤5中，损失函数分为定位损失、分类损失、置信度损失，可以表示为：

其中定位损失采用的是与NWD，其他损失采用YOLO v5默认损失函数：

NWD使用基于Wasserstein距离的度量方式，使得小目标检测性能得到大幅度提高。

对于小目标来说，包围框里总是会有一些背景像素的，因为真实的物体不可能正好是个矩形。在包围框中，前景像素一般集中在中间，背景像素一般集中在边上。为了更好地对包围框中的每个像素进行加权，可以将包围框建模成一个2D的高斯分布。具体来说，对于水平的包围框R＝(cx,cy,w,h)，用内接椭圆可以表示为：

其中，(μ_x,μ_y)是椭圆的中心点，(σ_x,σ_y)是x和y轴的半径。对应到包围框中：

μ_x＝cx,μ_y＝cy,

2D高斯分布的概率密度函数为：

其中，X，μ，∑分别表示坐标(x,y)，均值和方差。当：

这个椭圆就是2D高斯分布的一个分布轮廓。因此，水平包围框R＝(cx,cy,w,h)可以建模为一个2D高斯分布：

这样一来，两个包围框之间的相似度可以用这两个高斯分布之间的距离来表示。

紧接着，本发明使用最优传输理论中的Wasserstein距离来计算两个分布的距离。对于两个2D高斯分布，其2阶Wasserstein距离可以定义为：

即：

对于两个包围框来说：

但是，这是个距离度量，不能直接用于相似度。我们用归一化后的指数来得到一个新的度量，叫做归一化的Wasserstein距离：

这里C是一个常数，和数据集有关。

之后，对构建好的模型输入数据集进行训练，每迭代一个epoch则保存当前epoch的模型参数，并比较当前epoch的分类精度与之前的最优模型的分类精度。当达到设定的最大epoch时，输出识别准确度最优的行人目标识别模型。完成训练后的模型可以实现对光线不好的环境下目标的检测与识别，包括人、动物、汽车、其他交通工具以及障碍物等物体的检测识别。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：该方法包括以下步骤：

S5：在训练阶段，可见光和红外光数据经过特定的Mosaic数据增强、自适应锚框计算、自适应图片缩放过程后进入双流神经网络训练；采用YOLOv5l预训练权重来进行初始化，并使用随机梯度下降算法来学习网络的参数；

2.根据权利要求1所述的基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：在所述S1中，基于YOLOv5的双流卷积目标检测网络框架的输入为不同模态的图像对，Backbone为双流卷积网络，双流神经网络模型包括Backbone、Neck、预测层；

为可见光与红外光获取新的特征图f_t ⁱ和

3.根据权利要求2所述的基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：在所述S2中，对可见光和红外光输入图像，分别对二者进行通道注意力机制计算，之后进行特征图按照通道维度叠加的方式对特征图进行叠加，之后输入至空间注意力进行运算；

MS-CBAM模块的计算表示为：

X＝M_S[concat[M_C(X_V),M_C(X_T)]]

之后对X构建残差网络进行细化，过程表示为：

X'_V＝X_V+X

X'_T＝X_T+X

4.根据权利要求3所述的基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：在所述S3中，在卷积过程中引入多头自注意力机制，在输入通道维度、输出通道维度、空间维度与卷积核四个维度赋予卷积不同的注意力系数矩阵ODConv，提升特征提取的能力；ODConv模块整体的运算表示为：

X'＝ODConv(concat(X_V,X_T))

其综合了四个维度的动态卷积公式表示为：

5.根据权利要求4所述的基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：所述MS-CBAM模块与ODConv模块输入与输出均为可见光与红外光特征图，输出将与输入组成残差网络；

所述定位损失、分类损失、置信度损失的损失函数表达为：

L_total＝L_box+L_cls+L_conf

6.根据权利要求5所述的基于动态卷积与注意力机制的多模态特征目标检测方法，其特征在于：所述NWD损失函数表示为：

其中，为Wasserstein距离，/>为两个高斯分布之间的距离，C为与数据集相关的固定常数，提升小目标的检测性能。