CN114966696A

CN114966696A - 一种基于Transformer的跨模态融合目标检测方法

Info

Publication number: CN114966696A
Application number: CN202111588292.1A
Authority: CN
Inventors: 沈韬; 向思佳; 曾凯; 马倩; 张小青
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-08-30

Abstract

本发明涉及一种基于Transformer的跨模态融合目标检测方法，属于图像处理技术领域。本发明利用雷达传感器收集雷达数据同时摄像头收集图像数据。将毫米波雷达信息与图像信息进行对齐操作，包括时间对齐和空间坐标转换，同时将雷达特征映射到图像平面上。依据雷达物理特性对雷达信息进行预处理。构建特征提取网络，分别提取雷达特征和图像特征。设计雷达与视觉特征交互融合模块，充分考虑跨模态信息交互和上下文环境信息的补充学习。本发明与现有技术相比，将周围环境信息结合跨模态信息进行联合学习。解决了传统方法仅仅只能获取相同位置信息，缺乏对周围环境信息的感知的问题，同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。

Description

一种基于Transformer的跨模态融合目标检测方法

技术领域

本发明涉及一种基于Transformer的跨模态融合目标检测方法，属于图像处理技术领域。

背景技术

辅助驾驶任务需要保证检测的实时性与准确性，单传感器难以适应复杂场景下的目标检测以及实时决策，从而增加驾驶风险。利用多传感器信息融合的方式能有效降低在复杂天气和场景下的漏检率和误检率，保证堵辅助驾驶的安全性。随着深度学习成为目标检测任务的主流方式，多传感器的融合形式也逐渐趋向于利用深度学习框架融合多模态特征。由于当前融合方法具有局限性，侧重于对局部信息进行建模，忽略了对周围环境的关注与感知。同时缺少分析不同传感器的特性导致采集数据的差异性，无法实现不同传感器信息的合理利用及交互补充。

发明内容

本发明要解决的技术问题是提供一种基于Transformer的跨模态融合目标检测方法，将周围环境信息结合跨模态信息进行联合学习，从而解决传统方法仅仅只能获取相同位置信息，缺乏对周围环境信息的感知的问题，同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。

本发明的技术方案是：一种基于Transformer的跨模态融合目标检测方法，其特征在于：

Step1：分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息；

Step2：将雷达信息以点云数据的形式呈现，并将两种模态的数据进行时间与空间的对齐，保证数据形式的一致性；

Step3：使用坐标转换将3D雷达点云信息映射到图像的2D平面上，映射后的雷达信息是一个含有18个通道的矩阵，其大小与图像矩阵保持一致；

Step4：对单个雷达点进行扩充增强，使其更适应目标真实尺寸；

Step5：将经过增强后的雷达信息与图像数据进行特征提取及融合；

Step6：最后，对其进行分类和识别。

所述Step4，对对单个雷达点进行扩充增强具体步骤为：

Step4.1：明确雷达点映射在图像上的空间位置坐标；

Step4.2：依据目标距离传感器的距离以及雷达传回的雷达截面积(RCS)进行建模，获取目标显示在图像上的高度，以补充雷达采集信息时对目标高度信息的缺失，将高度记为

Step4.3：将原始雷达点依据获取的高度在图像上扩充成一条长度为

的线段，基于此补充目标高度信息的缺失；

Step4.4：基于雷达截面积信息对增强的线段横向扩充，扩充宽度为S，以补充目标缺失的宽度信息，此时经过完整增强后的是一个矩形区域，该区域即为雷达重点关注区域，且该区域内的全部信息都与增强前的单个雷达点信息保持一致。

所述Step5具体步骤为：

Step5.1：使用VGG16作为特征提取网络，输入分别为雷达信息与图像信息，经过每一个block后进行特征融合；

Step5.2：构建RC-Attention，实现不同模态相似性的计算；

Step5.3：基于RC-Attention构建特征融合模块Multi-Transformer，实现特征的跨模态融合及上下文信息的交互。

本发明所使用的数据集为nuScenes数据集。数据集由1000个场景组成，每个场景的时长为20秒，包含了各种各样的情景。在每一个场景中，有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。

所述特征提取网络使用VGG16，并在每个block之间进行跨模态特征的融合。

所述融合方法设计了多模态信息交互模块Multi-Transformer，实现跨模态信息交互与全局上下文信息的联合补充学习。同时构建了一种新型注意力机制，实现不同模态相似性权重的深层计算。

本发明的有益效果是：本发明与现有技术相比，主要解决了不同传感器采集数据差异性带来的融合不充分的问题。在光照极暗或者恶劣天气下能有效降低误检率，同时对遮挡目标能有效识别。充分感知跨模态环境信息与全局上下文信息，增强对目标的检测与识别能力。

附图说明

图1是本发明步骤流程图；

图2是本发明跨模态交互融合方法的整体网络图；

图3是本发明所设计的融合模块Multi-Transformer的结构图；

图4是本发明最终检测的效果图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于Transformer的跨模态融合目标检测方法，具体步骤为：

Step1：在nuScenes数据集中读取前置毫米波雷达和前置摄像头关键帧信息。其中毫米波雷达返回目标距离，速度，雷达散射截面积(RCS)等物理信息，同时摄像头捕捉了目标的RGB信息。

所使用的nuScenes数据集，由1000个场景组成，每个场景的时长为20秒，包含了各种各样的情景。在每一个场景中，有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。

Step2：将毫米波雷达信息与图像信息进行空间对齐，同时将雷达特征映射到图像平面上；

具体为，首先将毫米波坐标系下的坐标转换到世界坐标系中；其次，将世界坐标系的坐标转换到图像坐标系中。经过转换之后，雷达信息是以二维点信息的形式存在。此时雷达特征图和图像特征图的尺寸分别为：900×1600×18，900×1600×3。将雷达特征和图像特征图沿通道拼接，实现雷达特征到二维图像的映射。

Step3：依据雷达物理特性对雷达信息进行预处理。

Step3.1：首先明确雷达点映射到图像平面的初始位置，记为O_i。

其中，x_i是第i个雷达点的垂直偏移,h是雷达传感器安装的初始高度，在本方法中h＝0.5。τ和

是超参数，分别是位置因子和垂直偏移因子。

Step3.2：为了补充雷达传感器检测目标时，目标高度信息的缺失。本发明将单个雷达点扩展成为纵向扩充的线段

线段长度基于不同目标的雷达散射截面积RCS_i以及距离dist_i进行自适应调整，以拟合目标呈现在图像的真实高度。

其中，α和β为超参数，分别为距离因子和散射截面积因子。

Step3.3：基于雷达点初始位置O_i，进行高度上的增强。将增强线段

分为两个部分l₁和l₂。

Step3.4：依据雷达散射截面积RCS_i对目标进行横向增强，增强宽度为S_i，以补充缺失的宽度信息。

Step 4：构建特征提取网络，分别提取雷达特征和图像特征；

本发明首先进行特征提取，输入分别为经过预处理和增强操作后的雷达特征图以及视觉特征，特征图尺寸分别为：900×1600×2，900×1600×3。使用主成分分析法筛选出从雷达18个通道中筛选出2个特征明显的通道，分别是：距离与雷达截面积。图像特征通道数为3，包含了RGB信息。

Step5：设计雷达与视觉特征交互融合模块，充分考虑跨模态信息交互和上下文环境信息的补充学习。

如图2所示，在特征提取网络第三、四、五个block之后，使用Multi-Transformer模块进行多模态特征的融合。融合模块的整体结构如图3所示。

首先模块的输入分别为雷达特征，以及图像特征。由于空间对齐以及融合操作，故此时输入的雷达特征和图像特征维度相同，尺寸一致。

在Encoder和Decoder中实现了模态间以及模态内的相似性计算，如图四所示。

其中RC-Attention通过计算两个模态特征图中任意位置信息的相似性，赋予不同模态间相似性权重，实现跨模态特征匹配，从而达到跨模态信息的交互。输出为融合了图像信息的雷达特征，以及融合了雷达信息的图像特征如图3所示。

V_β＝Linear(X_β+PE(X_β))

其中，Linear(·)为线性变换，Separate(·)将不同特征的头进行进一步的拆分，PE(·是位置编码。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于Transformer的跨模态融合目标检测方法，其特征在于：

Step2：将雷达信息以点云数据的形式呈现，并将两种模态的数据进行时间与空间的对齐；

Step4：对单个雷达点进行扩充增强；

Step6：最后，对其进行分类和识别。

2.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法，其特征在于，所述Step4，对对单个雷达点进行扩充增强具体步骤为：

Step4.1：明确雷达点映射在图像上的空间位置坐标；

Step4.2：依据目标距离传感器的距离以及雷达传回的雷达截面积进行建模，获取目标显示在图像上的高度，将高度记为l；

Step4.3：将原始雷达点依据获取的高度在图像上扩充成一条长度为l的线段；

Step4.4：基于雷达截面积信息对增强的线段横向扩充，扩充宽度为，此时经过完整增强后的是一个矩形区域，该区域即为雷达重点关注区域，且该区域内的全部信息都与增强前的单个雷达点信息保持一致。

3.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法，其特征在于，所述Step5具体步骤为：

Step5.2：构建RC-Attention，实现不同模态相似性的计算；