[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN117422971A - 一种基于跨模态注意力机制融合的双模态目标检测方法与系统 - Google Patents

一种基于跨模态注意力机制融合的双模态目标检测方法与系统 Download PDF

Info

Publication number
CN117422971A
CN117422971A CN202311262346.4A CN202311262346A CN117422971A CN 117422971 A CN117422971 A CN 117422971A CN 202311262346 A CN202311262346 A CN 202311262346A CN 117422971 A CN117422971 A CN 117422971A
Authority
CN
China
Prior art keywords
radar
features
feature
image
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311262346.4A
Other languages
English (en)
Inventor
任坤
李盼
任福荣
张天阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202311262346.4A priority Critical patent/CN117422971A/zh
Publication of CN117422971A publication Critical patent/CN117422971A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • G01S13/867Combination of radar systems with cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于跨模态注意力机制融合的双模态目标检测方法与系统包括:获取待检测图像和毫米波雷达数据;对毫米波雷达数据进行预处理;将待检测图像和预处理后的毫米波雷达数据输入训练后的基于跨模态注意力机制融合的双模态目标检测模型中,得到检测结果;其中,基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取雷达特征和图像特征,在PANet输入、输出端不同尺度层级通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5‑X的检测网络中进行检测并经过NMS处理得到检测结果;在nuScenes数据集下验证了本发明的有效性。

Description

一种基于跨模态注意力机制融合的双模态目标检测方法与 系统
技术领域
本发明是关于一种基于跨模态注意力机制融合的双模态目标检测方法与系统,涉及深度学习和目标检测技术领域。
背景技术
近年来,得益于深度学习的快速发展,目标检测技术的相关研究已十分成熟,基于视觉图像的目标检测算法性能得到了极大提升。在良好环境,如光线充足、能见度高的条件下,视觉图像检测算法能够得到较高的检测精度。然而,在恶劣环境,如雨、雾、暴雪等可见度低的天气以及夜晚的光照强度弱等条件下,检测算法的检测精度大幅下降,会出现大量误检和漏检的情况,甚至会出现检测算法完全失效的情况。在道路交通或室外环境作业中,恶略天气或光照环境下,人类视觉对一些目标难以辨认时,更需要环境感知设备辅助,确保交通或生产安全。然而,基于视觉图像的目标检测算法并不适用于类似恶劣环境下的检测任务。
为解决上述问题,引入其他类型传感器,通过信息融合,实现更广泛条件下的目标检测是一个必然趋势。相对于相机传感器和激光雷达,毫米波雷达的检测性能受极端天气的影响较小,抗干扰能力较强,但其无法提供视觉图像中所包含的目标形状等细节信息。二者具有高度互补的探测能力,这使得采用毫米波雷达与图像融合的方式来提升算法在恶劣环境下的检测性能成为更具优势的解决方案。
目前,基于毫米波雷达与视觉图像融合的2D目标检测算法还处于研究阶段。现有毫米波雷达与图像的融合方式通常分为数据级融合、特征级融合以及决策级融合。数据级融合首先基于雷达点生成ROI,然后根据ROI来提取图像的对应区域,再进行检测任务,但该方法检测性能会受限于有效雷达点的数量。决策级融合将不同传感器的检测结果进行融合来生成最终的输出,但决策级融合方法在传感器的联合密度函数建模上十分困难。而特征级融合由于其可以同时学习雷达和视觉特征,充分挖掘特征信息,能获得更佳的检测性能,成为备受关注的融合方法。
然而,毫米波雷达数据与视觉图像进行特征融合,仍面临一些挑战。首先,由于毫米波雷达数据与视觉图像的异构性,直接使用通用卷积模型无法很好地捕捉雷达数据的有效特征,也难以充分挖掘数据包含的语义关系。其次,现有特征融合方法常采用拼接、相加或空间注意力融合雷达与图像的深度特征,然而这些单一的融合方式难以同时考虑到不同模态之间的差异性以及信息关联性。因此,如何根据不同模态的特性设计有效的特征融合方式也有待深入研究。
发明内容
本发明提供一种基于跨模态注意力机制融合的双模态目标检测方法与系统,以实现在恶劣天气和低光照环境下的高精度二维目标检测。本发明在YOLOv5-X检测网络的基础上,提出通过基于点云Transformer和稀疏编码卷积的雷达特征提取网络输出多尺度雷达特征,并通过基于跨模态注意力的复合特征融合模块将雷达特征和视觉特征进行多尺度融合,最终实现对能见度鲁棒的目标检测。其中,在基于点云Transformer和稀疏编码卷积的雷达特征提取网络(GLRFENet)中,利用Transformer的置换不变性学习毫米波雷达点云数据的长程依赖关系,并使用3D稀疏卷积聚合点云局部特征,以获取适合与图像特征融合的多尺度雷达特征。并且,设计了一种基于跨模态注意力的复合特征融合模块,首先利用雷达特征引导特征融合网络对图像特征进行学习,得到伪雷达特征,然后通过交叉注意力机制学习图像特征与伪雷达特征之间的信息关联性,以改进跨模态特征融合,进而提升模型的鲁棒性和泛化能力。
具体地,本发明采用了以下技术方案:
第一方面,本发明提供一种基于跨模态注意力机制融合的双模态目标检测方法,包括以下步骤:
获取待检测的图像和毫米波雷达数据;
对毫米波雷达数据进行预处理;
将所述待检测的图像和所述经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到所述基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;
其中,所述基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同尺度阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到所述检测结果;
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述基于点云Transformer和稀疏编码卷积的雷达特征提取网络提取毫米波雷达特征的方法包括:
对经过预处理投影至图像平面的二维毫米波雷达点云引入深度信息,将二维点云数据重构为三维点云数据/>其中/>表示实数集,H、W分别表示初始点云图的高度和宽度,D表示雷达点的深度,并均匀下采样至N个点,点数量不足N的用0补齐;
将点云中每个点的初始化特征设置为包含6个维度的特征:αjjj,rcsj,vj 1,vj 2,其中αjjj分别表示第j个雷达点对应W、H和D维度的空间位置,rcsj,vj 1,vj 2分别表示第j个雷达点的雷达散射截面积,横向速度和径向速度,因此得到初始的点云特征同时将每个点的空间位置坐标记录下来,然后通过点云Transformer子网络捕获雷达点云数据的长程依赖关系,增强数据全局特征,得到输出点云特征/>
通过稀疏编码层将Fout中每个点的特征按照所记录的空间位置坐标进行特征编码,其中不存在点的位置使用0进行填充,以构建四维雷达特征稀疏张量其中C表示雷达点的特征通道数;
利用3D稀疏卷积子网络进一步学习点云的局部特征,并结合下采样得到全局-局部的多尺度雷达特征;
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述将毫米波雷达点云均匀下采样的操作具体为:
判断点云中点的数量是否大于或小于N,若小于N,则不进行采样操作,保留所有点;若大于N,则将三维点云使用体素格进行划分;
使用体素格对点云进行划分,将点云中的点按照其位置分配到相应的体素格中,每个体素格中包含若干个点;
对每个体素格进行采样,将每个体素格中的点作为一个点集,首先计算体素格的质心,然后使用Kd-Tree近邻搜索算法选择距离体素质心最近的点作为第一轮采样点,直至采样点数量为N;
若采样点数量不足N,在剩下的雷达点中随机采样指定数量的点作为补充;
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述3D稀疏卷积子网络包括5个特征提取阶段Stage1~Stage5,每个阶段的下采样步长分别为S1、S2、S3、S4、S5,其中每个阶段的步长根据所需输出的雷达特征尺度取值;所述5个特征提取阶段Stage1~Stage5的网络结构相同并采用固定结构,均由1个常规稀疏卷积层和2个相同的子流形稀疏卷积层构成,其中常规稀疏卷积层包括3×3常规稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,子流形稀疏卷积层包括3×3子流形稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,其中,每个阶段的常规稀疏卷积的步长与每个阶段的下采样步长一致,子流形稀疏卷积的步长均为1,卷积核大小3×3为固定值;经过所述3D稀疏卷积子网络的处理,分别由Stage3~Stage5输出不同尺度的雷达特征然后通过将深度维度合并至通道维度,得到最终的多尺度雷达特征和/>用于与由CSPDarkNet53图像特征提取网络提取的多尺度图像特征进行融合,其中Li表示第i阶段,Ci、Di、Hi和Wi分别表示第i阶段的雷达特征图的通道数、深度、高度和宽度,CiDi表示第i阶段将深度维度合并至通道维度后的雷达特征图通道数,i=3,4,5;
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述通过跨模态注意力复合特征融合模块融合雷达特征和图像特征的过程包括:
将同一阶段的雷达特征和图像特征/>进行拼接,其中/>表示第i阶段的雷达特征和图像特征并且对应阶段的特征尺度相同,然后使用1×1卷积对拼接后的特征进行通道压缩和通道间的信息交互,压缩比率为e,得到中间特征再使用空间注意力对/>进行空间特征优化,得到伪雷达特征其中,e取值为2,为了使得到的伪雷达特征的通道数与图像特征的通道数一致,适应后续的融合;
利用多头交叉注意力机制计算图像特征和伪雷达特征/>之间的相关关系,基于所述相关关系,融合伪雷达特征和图像特征,其中,头的数量为固定值8;
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述使用空间注意力进行空间特征优化,包括:
使用全局最大池化和全局平均池化将中间特征的通道维度聚合为一个标量,分别得到/>和/>然后将/>和/>按照通道维度进行拼接得到
分别通过步长为1的3×3卷积和7×7卷积捕捉不同范围的空间信息并将通道数降维至1,其中步长,卷积核大小和通道数为固定值,再进行特征拼接;
通过对通道维度进行全局平均池化并经过Sigmoid函数得到空间注意力权重,将中间特征与空间注意力权重相乘得到输出特征/>
所述的基于跨模态注意力机制融合的双模态目标检测方法,进一步地,所述利用交叉注意力机制计算图像特征和伪雷达特征之间的相关关系,基于所述相关关系,将不同模态的特征进行融合,包括:
将伪雷达特征和图像特征/>按照空间进行展平,分别得到伪雷达特征序列和图像特征序列/>其中HiWi表示第i阶段中伪雷达特征与图像特征按照空间展开后的特征序列长度;
然后将经过线性变换得到的/>作为查询向量Query,/>分别经过线性变换得到的/>和/>作为键向量Key和值向量Value,针对每个雷达特征点和对应图像的区域,利用Q2和K2计算伪雷达特征与图像特征之间的相关关系以及权重,确定每个伪雷达特征点对于图像特征的重要性,然后使用计算的权重对V2进行加权得到注意力特征序列/>
将XAttn与所述伪雷达特征序列进行拼接,并经过折叠恢复原始特征形状,得到融合特征/>
第二方面,本发明还提供一种基于跨模态注意力机制融合的双模态目标检测系统,该系统包括:
数据获取模块,用于获取待检测的图像和毫米波雷达数据;
数据预处理模块,用于对毫米波雷达数据进行预处理;
目标检测模块,用于将所述待检测的图像和所述经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到所述基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;其中,所述基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到所述检测结果。
本发明的创造性主要体现在:
(1)本发明提出了一种基于点云Transformer和稀疏编码卷积的雷达特征提取网络,该网络能够利用Transformer的置换不变性学习毫米波雷达点云的全局特征,并使用3D稀疏卷积进一步聚合点云局部特征,获得适合与图像特征融合的多尺度雷达特征;
(2)本发明提出了一种跨模态注意力复合特征融合模块,首先利用雷达特征引导特征融合网络对图像特征进行学习,得到伪雷达特征,然后对图像特征与伪雷达特征通过交叉注意力机制学习模态之间的信息关联性,提高了跨模态特征融合的有效性,进而提升模型的鲁棒性和泛化能力;
(3)本发明结合基于点云Transformer和稀疏编码卷积的雷达特征提取网络和跨模态注意力复合特征融合模块,构建基于跨模态注意力机制融合的双模态目标检测网络,提升了复杂环境下的目标检测精度;
综上,本发明的方法适用于雨天、夜间等恶略天气和低光照环境下的目标检测,具有广泛的应用前景。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。在整个附图中,用相同的附图标记表示相同的部件。在附图中:
图1是本发明实施例的方法流程图;
图2是本发明实施例的基于点云Transformer和稀疏编码卷积的雷达特征提取网络结构图;
图3是本发明实施例的偏移注意力模块结构图;
图4是本发明实施例的跨模态注意力复合特征融合模块,其中,SA为空间注意力模块;
图5是本发明实施例的空间注意力模块结构图;
图6是本发明实施例的基于跨模态注意力机制融合的双模态目标检测网络结构图;
图7是本发明实施例的基于跨模态注意力机制融合的双模态目标检测方法与纯视觉图像目标检测方法YOLOv5-X的检测结果对比图;
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
应理解的是,文中使用的术语仅出于描述特定示例实施方式的目的,而无意于进行限制。除非上下文另外明确地指出,否则如文中使用的单数形式“一”、“一个”以及“所述”也可以表示包括复数形式。术语“包括”、“包含”、“含有”以及“具有”是包含性的,并且因此指明所陈述的特征、步骤、操作、元件和/或部件的存在,但并不排除存在或者添加一个或多个其它特征、步骤、操作、元件、部件、和/或它们的组合。文中描述的方法步骤、过程、以及操作不解释为必须要求它们以所描述或说明的特定顺序执行,除非明确指出执行顺序。还应当理解,可以使用另外或者替代的步骤。
为了便于描述,可以在文中使用空间相对关系术语来描述如图中示出的一个元件或者特征相对于另一元件或者特征的关系,这些相对关系术语例如为“内部”、“外部”、“内侧”、“外侧”、“下面”、“上面”等。这种空间相对关系术语意于包括除图中描绘的方位之外的在使用或者操作中装置的不同方位。
实施例一
为了解决纯视觉图像目标检测网络在恶略天气和低光照环境下检测性能不佳的问题,本实施例提出基于跨模态注意力机制融合的双模态目标检测方法,包括以下内容:
S1、获取待检测的图像和毫米波雷达数据;
S2、对毫米波雷达数据进行预处理;
具体地,预处理包括以下三个步骤:
首先,通过联合多个周期的雷达信号,并通过三维边界框滤除噪声点,以提高雷达数据质量;
然后,将点扩展为3米垂线,以弥补雷达数据在高度上的缺失;
最后,通过将雷达数据映射至图像平面,实现雷达与图像的空间对齐;
S3、将所述待检测的图像和所述经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到所述基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;
其中,所述基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到所述检测结果;
S31、具体地,基于点云Transformer和稀疏编码卷积的雷达特征提取网络,结构如图2所示,雷达特征提取的具体过程包括:
网络将预处理后映射至图像平面后的二维雷达点云作为输入,首先将雷达点的深度信息(即目标与传感器的径向距离)在垂直于图像方向上的投影作为扩展的第三维空间坐标信息,构造基于图像坐标系的三维雷达点云数据/>其中/>表示实数集,H、W分别表示初始点云图的高度和宽度,H=384、W=640,D表示雷达点的深度,D=64,然后均匀下采样至2048个点,2048为经验值,点数量不足2048的用0补齐;
对点云进行均匀下采样的操作具体为:首先判断点云中点的数量是否大于或小于N,若小于N,则不进行采样操作,保留所有点;若大于N,则将三维点云使用体素格进行划分,将点云中的点按照其位置分配到相应的体素格中,每个体素格中包含若干个点;然后对每个体素格进行采样,将每个体素格中的点作为一个点集,首先计算体素格的质心,然后使用Kd-Tree近邻搜索算法选择距离体素质心最近的点作为第一轮采样点,直至采样点数量为N,若采样点数量不足N,则在剩下的雷达点中随机采样指定数量的点作为补充采样点;
进一步地,通过点云Transformer子网络捕获雷达点云数据的长程依赖关系,增强数据全局特征,其中,点云Transformer子网络结构包括:输入嵌入层,注意力层和线性输出层;首先对雷达点的特征进行初始化,每个雷达点的初始特征可表示为:
其中,Zj表示第j个雷达点的初始特征,αjjj分别表示第j个雷达点对应W、H和D的空间位置坐标,rcsj,vj 1,vj 2分别表示第j个雷达点的雷达散射截面积,横向速度和径向速度,N表示雷达点数量;输入嵌入层包含2个线性层,用于将初始雷达特征N=2048,映射至新的高维特征空间,得到嵌入特征/>
嵌入特征随后被输入到由4个堆叠的偏移注意力模块组成的注意力层,4为固定值,以学习每个点之间的长程依赖关系;偏移注意力模块可表示为:
其中,Femb表示嵌入特征,Q1,K1和V1分别表示Query、Key和Value矩阵,Wq 1、Wk 1和Wv 1均为可学习的参数矩阵,A(·)表示计算注意力特征,l1norm表示l1范数,T表示矩阵转置,LBR表示线性层,FAttention表示注意力模块输出特征;偏移注意力模块使用l1范数对注意力图进行归一化,如图3所示,其次使用注意力特征与Femb的偏移量代替原始注意力特征,能够增强注意力权重并减小噪声的干扰;然后,将多层级的注意力模块输出特征进行拼接,以丰富特征表达和减小信息丢失。最后,由线性层进行进一步融合,输出点云特征
通过稀疏编码层利用全局点云特征按照三维点云P的空间分布进行特征编码,以构建四维雷达特征张量其中,C=160,D=64,H=384,W=640;
随后将G输入到多尺度3D稀疏卷积子网络中进行局部高效聚合,学习雷达点云的局部特征,并节省大量不必要的计算资源;其中,3D稀疏卷积子网络与图像特征提取网络类似,包括5个特征提取阶段Stage1~Stage5,主要参数总结在表1中;
表1 3D稀疏卷积层结构和参数
基于上述表格,雷达特征经过每个阶段的下采样步长分别为S1、S2、S3、S4、S5,其中每个阶段的步长根据所需输出的雷达特征尺度取值,具体取值如表1所示;所述5个特征提取阶段Stage1~Stage5的网络结构相同并采用固定结构,均由1个常规稀疏卷积层和2个相同的子流形稀疏卷积层构成,其中常规稀疏卷积层包括3×3常规稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,子流形稀疏卷积层包括3×3子流形稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,其中,每个阶段的常规稀疏卷积的步长与每个阶段的下采样步长一致,子流形稀疏卷积的步长均为1,卷积核大小3×3为固定值;经过所述3D稀疏卷积子网络的处理,分别由Stage3~Stage5输出不同尺度的雷达特征 和/>然后通过将深度维度合并至通道维度,得到最终的多尺度雷达特征和/>用于与由CSPDarkNet53图像特征提取网络提取的多尺度图像特征进行融合,其中Li表示第i阶段,Ci、Di、Hi和Wi分别表示第i阶段的雷达特征图的通道数、深度、高度和宽度,CiDi表示第i阶段将深度维度合并至通道维度后的雷达特征图通道数,i=3,4,5,C3、C4、C5=40、80、160,D3、D4、D5=8、8、8,H3、H4、H5=48、24、12,W3、W4、W5=80、40、20,C3D3、C4D4、C5D5=320、640、1280;
S32、具体地,跨模态注意力复合特征融合模块嵌于PANet的输入端和输出端,融合不同阶段的雷达特征和图像特征,结构如图4所示,通过跨模态注意力复合特征融合模块融合雷达特征和图像特征的过程包括:
将同一阶段的雷达特征和图像特征/>进行拼接,其中FL1i和FL2i表示第i阶段的雷达特征和图像特征并且对应阶段的特征尺度相同,然后使用1×1卷积对拼接后的特征进行通道压缩和通道间的信息交互,压缩比率为e=2,得到中间特征再使用空间注意力对/>进行空间特征优化,得到伪雷达特征其中,e取值为2,为了使得到的伪雷达特征的通道数与图像特征的通道数一致,适应后续的融合;;
所述空间注意力如图5所示,首先使用全局最大池化和全局平均池化将中间特征的通道维度聚合为一个标量,分别得到/>和/>然后将/>和/>按照通道维度进行拼接得到/>
然后分别通过步长为1的3×3卷积和7×7卷积捕捉不同范围的空间信息并将通道数降维至1,其中步长,卷积核大小和通道数为固定值,再次进行特征拼接;
最后通过对通道维度进行全局平均池化并经过Sigmoid函数得到空间注意力权重,并将中间特征与空间注意力权重相乘得到输出特征/>空间注意力可被表示为:
其中,SA(g)表示计算空间注意力,表示中间特征,*表示卷积核大小,F*表示对拼接池化特征进行卷积得到的特征,Conv*×*表示卷积核大小为*×*的卷积层,GMP和GAP分别表示全局最大池化和全局平均池化,Concat表示拼接操作;
进一步地,利用交叉注意力机制计算图像特征和伪雷达特征/>之间的相关关系,基于所述相关关系,融合伪雷达特征和图像特征,其中,头的数量为固定值8;
具体地,将伪雷达特征和图像特征/>按照空间进行展平,分别得到对应特征序列/>和/>其中HiWi表示按照空间展开后的序列长度,H3W3=3840,H4W4=960,H5W5=240;
然后将经过线性变换得到的/>作为查询向量Query,/>分别经过线性变换得到的/>和/>作为键向量Key和值向量Value,针对每个雷达特征点和对应图像的区域,利用Q2和K2计算伪雷达特征与图像特征之间的相关关系以及权重,确定每个伪雷达特征点对于图像特征的重要性,然后使用计算的权重对V2进行加权,得到注意力特征序列/>
最后,将XAttn与所述伪雷达特征序列进行拼接,并经过折叠恢复原始特征形状,得到融合特征/>因此,所提出的跨模态注意力复合特征融合模块可由以下公式表示:
其中,Flat表示对特征执行展平操作,Q2,K2和V2分别表示Query,Key和Value矩阵,Wq 2,Wk 2和Wv 2均为可学习的参数矩阵,dimi表示不同阶段Query/Value的维度,该值根据不同阶段取值为320、640和1280,nh表示多头注意力中头的数量,nh=8为固定值,PE表示可学习的相对位置编码,Reshape表示折叠恢复原始特征形状操作;
S33、进一步地,将PANet各阶段输出的融合特征输入至YOLOv5-X的检测网络中对应的阶段进行处理,得到图像中各目标的检测框和类别参数,再通过NMS非极大值抑制后处理过滤掉冗余的检测框,得到最终的检测结果;
下面通过具体实施例详细说明本发明的基于跨模态注意力机制融合的双模态目标检测方法的实验过程及实验结果;
1、实验平台配置
本实施例在Pytorch框架下实现,运行平台是基于英特尔i7-12700CPU、NVIDIAGeForce RTX 4090GPU与Ubuntu20.04.3LTS操作系统进行训练和测试;
2、训练基于跨模态注意力机制融合的双模态目标检测网络模型
2.1、数据集和评价指标
在实验中,采用nuScenes数据集作为训练数据集,nuScenes包含了有真实场景捕获的1000个不同场景的毫米波雷达与图像数据,将其中带有标注的850个场景的数据作为实验数据,对数据集进行预处理并按照6:2:2的比例划分为训练集、验证集和测试集,该比例为经验值,总计20480对雷达与图像数据作为训练集,6830对雷达与图像数据作为测试集,并且为了适应网络训练,将输入图像和雷达数据分辨率调整为384×640;
本实施例使用mAP(IoU=0.5)作为基于跨模态注意力机制融合的双模态目标检测方法的评价指标,一般来说,这个指标的数值越高,代表算法检测性能越强;
2.2、训练参数设置
本实施例网络在Pytorch框架中实现,并且在GeForce RTX 4090GPU上使用SGD优化器进行训练,Batch size设置为4,Epoch设置为100,学习率初始设置为0.01,其中Batchsize受限于设备的显存大小,Epoch和初始学习率为经验值,并根据训练的进行自适应调整,网络基于YOLOv5-X预训练模型进行训练;
2.3、结果分析
将本发明的基于跨模态注意力机制融合的双模态目标检测模型在nuScenes数据集上进行测试,并使用mAP评价指标与纯视觉图像目标检测模型进行性能比较;
性能对比的结果如表2所示,在mAP评价指标下,最佳结果使用粗体表示;
在基于mAP评价指标的算法性能对比上,本发明的基于跨模态注意力机制融合的双模态目标检测方法优于纯视觉图像目标检测方法;
表2实验结果对比
图7分别展示了纯视觉图像目标检测算法YOLOv5-X和本发明的双模态目标检测算法的检测结果可视化,从检测结果上看,本发明的检测准确度和召回率均高于纯视觉图像算法;如图7所示,YOLOv5-X无法完整并准确地识别暗光下的人和汽车,而本发明可以准确地识别出暗光下的目标;
因此,实验结果表明本发明的双模态目标检测方法实现了在复杂环境下的强鲁棒目标检测。
实施例二
上述实施例一提供了基于跨模态注意力机制融合的双模态目标检测方法,与之相对应地,本实施例提供基于跨模态注意力机制融合的双模态目标检测系统;本实施例提供的基于跨模态注意力机制融合的双模态目标检测系统可以实施实施例一的基于跨模态注意力机制融合的双模态目标检测方法,该系统可以通过软件、硬件或软硬结合的方式来实现;例如,该系统可以包括集成的或分开的功能模块或功能单元来执行实施例一各方法中的对应步骤;由于本实施例的基于跨模态注意力机制融合的双模态目标检测系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例一的部分说明即可,本实施例的基于跨模态注意力机制融合的双模态目标检测系统仅仅是示意性的;
本实施例提供了一种基于跨模态注意力机制融合的双模态目标检测目标检测系统,该系统包括:
数据获取模块,用于获取待检测的图像和毫米波雷达数据;
数据预处理模块,用于对毫米波雷达数据进行预处理;
目标检测模块,用于将待检测的图像和经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;其中,基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到检测结果;
最后应说明的是,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,包括:
获取待检测的图像和毫米波雷达数据;
对毫米波雷达数据进行预处理;
将所述待检测的图像和所述经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到所述基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;
其中,所述基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到所述检测结果。
2.根据权利要求1所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,所述基于点云Transformer和稀疏编码卷积的雷达特征提取网络提取毫米波雷达特征的方法包括:
对经过预处理投影至图像平面的二维毫米波雷达点云引入深度信息,将二维点云数据重构为三维点云数据/>其中/>表示实数集,H、W分别表示初始点云图的高度和宽度,D表示雷达点的深度,并均匀下采样至N个点,点数量不足N的用0补齐;
将点云中每个点的初始化特征设置为包含6个维度的特征:αjjj,rcsj,其中αjjj分别表示第j个雷达点对应W、H和D维度的空间位置,rcsj,vj 1,vj 2分别表示第j个雷达点的雷达散射截面积,横向速度和径向速度,因此得到初始的点云特征/>同时将每个点的空间位置坐标记录下来,然后通过点云Transformer子网络捕获雷达点云数据的长程依赖关系,增强数据全局特征,得到输出点云特征/>
通过稀疏编码层将Fout中每个点的特征按照所记录的空间位置坐标进行特征编码,其中不存在点的位置使用0进行填充,以构建四维雷达特征稀疏张量其中C表示雷达点的特征通道数;
利用3D稀疏卷积子网络进一步学习点云的局部特征,并结合下采样得到全局-局部的多尺度雷达特征。
3.根据权利要求2所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,所述将毫米波雷达点云均匀下采样的操作具体为:
判断点云中点的数量是否大于或小于N,若小于N,则不进行采样操作,保留所有点;若大于N,则将三维点云使用体素格进行划分;
使用体素格对点云进行划分,将点云中的点按照其位置分配到相应的体素格中,每个体素格中包含若干个点;
对每个体素格进行采样,将每个体素格中的点作为一个点集,首先计算体素格的质心,然后使用Kd-Tree近邻搜索算法选择距离体素质心最近的点作为第一轮采样点,直至采样点数量为N;
若采样点数量不足N,在剩下的雷达点中随机采样指定数量的点作为补充采样点。
4.根据权利要求2所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,所述3D稀疏卷积子网络包括5个特征提取阶段Stage1~Stage5,每个阶段的下采样步长分别为S1、S2、S3、S4、S5,其中每个阶段的步长根据所需输出的雷达特征尺度取值;所述5个特征提取阶段Stage1~Stage5的网络结构相同并采用固定结构,均由1个常规稀疏卷积层和2个相同的子流形稀疏卷积层构成,其中常规稀疏卷积层包括3×3常规稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,子流形稀疏卷积层包括3×3子流形稀疏卷积、BatchNorm1d归一化函数和ReLU激活函数,其中,每个阶段的常规稀疏卷积的步长与每个阶段的下采样步长一致,子流形稀疏卷积的步长均为1,卷积核大小3×3为固定值;经过所述3D稀疏卷积子网络的处理,分别由Stage3~Stage5输出不同尺度的雷达特征和/>然后通过将深度维度合并至通道维度,得到最终的多尺度雷达特征/>和/>用于与由CSPDarkNet53图像特征提取网络提取的多尺度图像特征进行融合,其中Li表示第i阶段,Ci、Di、Hi和Wi分别表示第i阶段的雷达特征图的通道数、深度、高度和宽度,CiDi表示第i阶段将深度维度合并至通道维度后的雷达特征图通道数,i=3,4,5。
5.根据权利要求1所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,所述通过跨模态注意力复合特征融合模块融合雷达特征和图像特征的过程包括:
将同一阶段的雷达特征和图像特征/>进行拼接,其中/>和/>表示第i阶段的雷达特征和图像特征并且对应阶段的特征尺度相同,然后使用1×1卷积对拼接后的特征进行通道压缩和通道间的信息交互,压缩比率为e,得到中间特征/>再使用空间注意力对/>进行空间特征优化,得到伪雷达特征/>其中,e取值为2,为了使得到的伪雷达特征的通道数与图像特征的通道数一致,适应后续的融合;
利用多头交叉注意力机制计算图像特征和伪雷达特征/>之间的相关关系,基于所述相关关系,融合伪雷达特征和图像特征,其中,头的数量为固定值8。
6.根据权利要求5所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,使用空间注意力进行空间特征优化,包括:
使用全局最大池化和全局平均池化将中间特征的通道维度聚合为一个标量,分别得到/>和/>然后将/>和/>按照通道维度进行拼接得到/>
分别通过步长为1的3×3卷积和7×7卷积捕捉不同范围的空间信息并将通道数降维至1,其中步长,卷积核大小和通道数为固定值,再进行特征拼接;
通过对通道维度进行全局平均池化并经过Sigmoid函数得到空间注意力权重,将中间特征与空间注意力权重相乘得到输出特征/>
7.根据权利要求5所述的基于跨模态注意力机制融合的双模态目标检测方法,其特征在于,所述利用交叉注意力机制计算图像特征和伪雷达特征之间的相关关系,基于所述相关关系,将不同模态的特征进行融合,包括:
将伪雷达特征和图像特征/>按照空间进行展平,分别得到伪雷达特征序列和图像特征序列/>其中HiWi表示第i阶段中伪雷达特征与图像特征按照空间展开后的特征序列长度;
然后将经过线性变换得到的/>作为查询向量Query,/>分别经过线性变换得到的/>和/>作为键向量Key和值向量Value,针对每个雷达特征点和对应图像的区域,利用Q2和K2计算伪雷达特征与图像特征之间的相关关系以及权重,确定每个伪雷达特征点对于图像特征的重要性,然后使用计算的权重对V2进行加权,得到注意力特征序列/>
将XAttn与所述伪雷达特征序列进行拼接,并经过折叠恢复原始特征形状,得到融合特征/>
8.一种基于跨模态注意力机制融合的双模态目标检测系统,其特征在于,该系统包括:
数据获取模块,用于获取待检测的图像和毫米波雷达数据;
数据预处理模块,用于对毫米波雷达数据进行预处理;
目标检测模块,用于将所述待检测的图像和所述经过预处理的毫米波雷达数据输入至经训练的基于跨模态注意力机制融合的双模态目标检测模型中,得到所述基于跨模态注意力机制融合的双模态目标检测模型输出的检测结果;其中,所述基于跨模态注意力机制融合的双模态目标检测模型分别利用基于点云Transformer和稀疏编码卷积的雷达特征提取网络和CSPDarkNet53图像特征提取网络提取毫米波雷达特征和图像特征,并在PANet输入和输出端不同阶段上通过跨模态注意力复合特征融合模块融合雷达特征和图像特征,最后将融合特征输入到YOLOv5-X的检测网络中进行检测并经过NMS处理得到所述检测结果。
CN202311262346.4A 2023-09-27 2023-09-27 一种基于跨模态注意力机制融合的双模态目标检测方法与系统 Pending CN117422971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311262346.4A CN117422971A (zh) 2023-09-27 2023-09-27 一种基于跨模态注意力机制融合的双模态目标检测方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311262346.4A CN117422971A (zh) 2023-09-27 2023-09-27 一种基于跨模态注意力机制融合的双模态目标检测方法与系统

Publications (1)

Publication Number Publication Date
CN117422971A true CN117422971A (zh) 2024-01-19

Family

ID=89521891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311262346.4A Pending CN117422971A (zh) 2023-09-27 2023-09-27 一种基于跨模态注意力机制融合的双模态目标检测方法与系统

Country Status (1)

Country Link
CN (1) CN117422971A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117953382A (zh) * 2024-03-19 2024-04-30 中铁四局集团有限公司 探地雷达数据的时空特征融合方法及系统
CN118097498A (zh) * 2024-02-06 2024-05-28 北京科技大学 一种基于周期稀疏注意的周期性信号检测方法及装置
CN118135364A (zh) * 2024-05-08 2024-06-04 北京数慧时空信息技术有限公司 基于深度学习的多源遥感影像的融合方法及系统
CN118379355A (zh) * 2024-06-21 2024-07-23 山东科技大学 大尺度环境下融合相机与激光雷达的位置识别方法
CN118552956A (zh) * 2024-07-29 2024-08-27 济南大学 一种基于超分辨率Transformer的汽车零部件检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118097498A (zh) * 2024-02-06 2024-05-28 北京科技大学 一种基于周期稀疏注意的周期性信号检测方法及装置
CN117953382A (zh) * 2024-03-19 2024-04-30 中铁四局集团有限公司 探地雷达数据的时空特征融合方法及系统
CN118135364A (zh) * 2024-05-08 2024-06-04 北京数慧时空信息技术有限公司 基于深度学习的多源遥感影像的融合方法及系统
CN118135364B (zh) * 2024-05-08 2024-08-30 北京数慧时空信息技术有限公司 基于深度学习的多源遥感影像的融合方法及系统
CN118379355A (zh) * 2024-06-21 2024-07-23 山东科技大学 大尺度环境下融合相机与激光雷达的位置识别方法
CN118379355B (zh) * 2024-06-21 2024-10-15 山东科技大学 大尺度环境下融合相机与激光雷达的位置识别方法
CN118552956A (zh) * 2024-07-29 2024-08-27 济南大学 一种基于超分辨率Transformer的汽车零部件检测方法

Similar Documents

Publication Publication Date Title
CN117422971A (zh) 一种基于跨模态注意力机制融合的双模态目标检测方法与系统
CN110675418B (zh) 一种基于ds证据理论的目标轨迹优化方法
Yin et al. Hot region selection based on selective search and modified fuzzy C-means in remote sensing images
Venugopal Automatic semantic segmentation with DeepLab dilated learning network for change detection in remote sensing images
CN111797716A (zh) 一种基于Siamese网络的单目标跟踪方法
CN111832655A (zh) 一种基于特征金字塔网络的多尺度三维目标检测方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN105160649A (zh) 基于核函数非监督聚类的多目标跟踪方法及系统
Xia et al. PANDA: Parallel asymmetric network with double attention for cloud and its shadow detection
CN112149591A (zh) 用于sar图像的ssd-aeff自动桥梁检测方法及系统
CN114299405A (zh) 一种无人机图像实时目标检测方法
CN112115871B (zh) 适用于行人目标检测的高低频交织边缘特征增强方法
Mansourifar et al. GAN-based satellite imaging: A survey on techniques and applications
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
CN116503602A (zh) 基于多层级边缘增强的非结构化环境三维点云语义分割方法
CN116704304A (zh) 一种混合注意力机制的多模态融合目标检测方法
CN112749662B (zh) 一种基于激光雷达的非结构化环境可行驶区域提取方法
Mahenge et al. RCNN-GAN: an enhanced deep learning approach towards detection of road cracks
CN118135455A (zh) 基于高位视频的三维目标检测方法及系统
CN116935249A (zh) 一种无人机场景下三维特征增强的小目标检测方法
Xing et al. Improving Reliability of Heterogeneous Change Detection by Sample Synthesis and Knowledge Transfer
CN116778449A (zh) 一种用于提高自动驾驶三维目标检测效率的检测方法
CN116682105A (zh) 一种毫米波雷达和视觉特征注意力融合的目标检测方法
CN113963270A (zh) 一种高分遥感影像建筑物检测方法
CN116229317B (zh) 一种自适应模板更新的孪生红外目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination