CN114966696A - 一种基于Transformer的跨模态融合目标检测方法 - Google Patents
一种基于Transformer的跨模态融合目标检测方法 Download PDFInfo
- Publication number
- CN114966696A CN114966696A CN202111588292.1A CN202111588292A CN114966696A CN 114966696 A CN114966696 A CN 114966696A CN 202111588292 A CN202111588292 A CN 202111588292A CN 114966696 A CN114966696 A CN 114966696A
- Authority
- CN
- China
- Prior art keywords
- radar
- information
- image
- transformer
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000013507 mapping Methods 0.000 claims abstract description 5
- 230000000007 visual effect Effects 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003416 augmentation Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 7
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000003014 reinforcing effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/88—Radar or analogous systems specially adapted for specific applications
- G01S13/93—Radar or analogous systems specially adapted for specific applications for anti-collision purposes
- G01S13/931—Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Electromagnetism (AREA)
- Computer Networks & Wireless Communication (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明涉及一种基于Transformer的跨模态融合目标检测方法,属于图像处理技术领域。本发明利用雷达传感器收集雷达数据同时摄像头收集图像数据。将毫米波雷达信息与图像信息进行对齐操作,包括时间对齐和空间坐标转换,同时将雷达特征映射到图像平面上。依据雷达物理特性对雷达信息进行预处理。构建特征提取网络,分别提取雷达特征和图像特征。设计雷达与视觉特征交互融合模块,充分考虑跨模态信息交互和上下文环境信息的补充学习。本发明与现有技术相比,将周围环境信息结合跨模态信息进行联合学习。解决了传统方法仅仅只能获取相同位置信息,缺乏对周围环境信息的感知的问题,同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。
Description
技术领域
本发明涉及一种基于Transformer的跨模态融合目标检测方法,属于图像处理技术领域。
背景技术
辅助驾驶任务需要保证检测的实时性与准确性,单传感器难以适应复杂场景下的目标检测以及实时决策,从而增加驾驶风险。利用多传感器信息融合的方式能有效降低在复杂天气和场景下的漏检率和误检率,保证堵辅助驾驶的安全性。随着深度学习成为目标检测任务的主流方式,多传感器的融合形式也逐渐趋向于利用深度学习框架融合多模态特征。由于当前融合方法具有局限性,侧重于对局部信息进行建模,忽略了对周围环境的关注与感知。同时缺少分析不同传感器的特性导致采集数据的差异性,无法实现不同传感器信息的合理利用及交互补充。
发明内容
本发明要解决的技术问题是提供一种基于Transformer的跨模态融合目标检测方法,将周围环境信息结合跨模态信息进行联合学习,从而解决传统方法仅仅只能获取相同位置信息,缺乏对周围环境信息的感知的问题,同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。
本发明的技术方案是:一种基于Transformer的跨模态融合目标检测方法,其特征在于:
Step1:分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息;
Step2:将雷达信息以点云数据的形式呈现,并将两种模态的数据进行时间与空间的对齐,保证数据形式的一致性;
Step3:使用坐标转换将3D雷达点云信息映射到图像的2D平面上,映射后的雷达信息是一个含有18个通道的矩阵,其大小与图像矩阵保持一致;
Step4:对单个雷达点进行扩充增强,使其更适应目标真实尺寸;
Step5:将经过增强后的雷达信息与图像数据进行特征提取及融合;
Step6:最后,对其进行分类和识别。
所述Step4,对对单个雷达点进行扩充增强具体步骤为:
Step4.1:明确雷达点映射在图像上的空间位置坐标;
Step4.4:基于雷达截面积信息对增强的线段横向扩充,扩充宽度为S,以补充目标缺失的宽度信息,此时经过完整增强后的是一个矩形区域,该区域即为雷达重点关注区域,且该区域内的全部信息都与增强前的单个雷达点信息保持一致。
所述Step5具体步骤为:
Step5.1:使用VGG16作为特征提取网络,输入分别为雷达信息与图像信息,经过每一个block后进行特征融合;
Step5.2:构建RC-Attention,实现不同模态相似性的计算;
Step5.3:基于RC-Attention构建特征融合模块Multi-Transformer,实现特征的跨模态融合及上下文信息的交互。
本发明所使用的数据集为nuScenes数据集。数据集由1000个场景组成,每个场景的时长为20秒,包含了各种各样的情景。在每一个场景中,有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。
所述特征提取网络使用VGG16,并在每个block之间进行跨模态特征的融合。
所述融合方法设计了多模态信息交互模块Multi-Transformer,实现跨模态信息交互与全局上下文信息的联合补充学习。同时构建了一种新型注意力机制,实现不同模态相似性权重的深层计算。
本发明的有益效果是:本发明与现有技术相比,主要解决了不同传感器采集数据差异性带来的融合不充分的问题。在光照极暗或者恶劣天气下能有效降低误检率,同时对遮挡目标能有效识别。充分感知跨模态环境信息与全局上下文信息,增强对目标的检测与识别能力。
附图说明
图1是本发明步骤流程图;
图2是本发明跨模态交互融合方法的整体网络图;
图3是本发明所设计的融合模块Multi-Transformer的结构图;
图4是本发明最终检测的效果图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于Transformer的跨模态融合目标检测方法,具体步骤为:
Step1:在nuScenes数据集中读取前置毫米波雷达和前置摄像头关键帧信息。其中毫米波雷达返回目标距离,速度,雷达散射截面积(RCS)等物理信息,同时摄像头捕捉了目标的RGB信息。
所使用的nuScenes数据集,由1000个场景组成,每个场景的时长为20秒,包含了各种各样的情景。在每一个场景中,有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。
Step2:将毫米波雷达信息与图像信息进行空间对齐,同时将雷达特征映射到图像平面上;
具体为,首先将毫米波坐标系下的坐标转换到世界坐标系中;其次,将世界坐标系的坐标转换到图像坐标系中。经过转换之后,雷达信息是以二维点信息的形式存在。此时雷达特征图和图像特征图的尺寸分别为:900×1600×18,900×1600×3。将雷达特征和图像特征图沿通道拼接,实现雷达特征到二维图像的映射。
Step3:依据雷达物理特性对雷达信息进行预处理。
Step3.1:首先明确雷达点映射到图像平面的初始位置,记为Oi。
Step3.2:为了补充雷达传感器检测目标时,目标高度信息的缺失。本发明将单个雷达点扩展成为纵向扩充的线段线段长度基于不同目标的雷达散射截面积RCSi以及距离disti进行自适应调整,以拟合目标呈现在图像的真实高度。
其中,α和β为超参数,分别为距离因子和散射截面积因子。
Step3.4:依据雷达散射截面积RCSi对目标进行横向增强,增强宽度为Si,以补充缺失的宽度信息。
Step 4:构建特征提取网络,分别提取雷达特征和图像特征;
本发明首先进行特征提取,输入分别为经过预处理和增强操作后的雷达特征图以及视觉特征,特征图尺寸分别为:900×1600×2,900×1600×3。使用主成分分析法筛选出从雷达18个通道中筛选出2个特征明显的通道,分别是:距离与雷达截面积。图像特征通道数为3,包含了RGB信息。
Step5:设计雷达与视觉特征交互融合模块,充分考虑跨模态信息交互和上下文环境信息的补充学习。
如图2所示,在特征提取网络第三、四、五个block之后,使用Multi-Transformer模块进行多模态特征的融合。融合模块的整体结构如图3所示。
首先模块的输入分别为雷达特征,以及图像特征。由于空间对齐以及融合操作,故此时输入的雷达特征和图像特征维度相同,尺寸一致。
在Encoder和Decoder中实现了模态间以及模态内的相似性计算,如图四所示。
其中RC-Attention通过计算两个模态特征图中任意位置信息的相似性,赋予不同模态间相似性权重,实现跨模态特征匹配,从而达到跨模态信息的交互。输出为融合了图像信息的雷达特征,以及融合了雷达信息的图像特征如图3所示。
Vβ=Linear(Xβ+PE(Xβ))
其中,Linear(·)为线性变换,Separate(·)将不同特征的头进行进一步的拆分,PE(·是位置编码。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于Transformer的跨模态融合目标检测方法,其特征在于:
Step1:分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息;
Step2:将雷达信息以点云数据的形式呈现,并将两种模态的数据进行时间与空间的对齐;
Step3:使用坐标转换将3D雷达点云信息映射到图像的2D平面上,映射后的雷达信息是一个含有18个通道的矩阵,其大小与图像矩阵保持一致;
Step4:对单个雷达点进行扩充增强;
Step5:将经过增强后的雷达信息与图像数据进行特征提取及融合;
Step6:最后,对其进行分类和识别。
2.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法,其特征在于,所述Step4,对对单个雷达点进行扩充增强具体步骤为:
Step4.1:明确雷达点映射在图像上的空间位置坐标;
Step4.2:依据目标距离传感器的距离以及雷达传回的雷达截面积进行建模,获取目标显示在图像上的高度,将高度记为l;
Step4.3:将原始雷达点依据获取的高度在图像上扩充成一条长度为l的线段;
Step4.4:基于雷达截面积信息对增强的线段横向扩充,扩充宽度为,此时经过完整增强后的是一个矩形区域,该区域即为雷达重点关注区域,且该区域内的全部信息都与增强前的单个雷达点信息保持一致。
3.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法,其特征在于,所述Step5具体步骤为:
Step5.1:使用VGG16作为特征提取网络,输入分别为雷达信息与图像信息,经过每一个block后进行特征融合;
Step5.2:构建RC-Attention,实现不同模态相似性的计算;
Step5.3:基于RC-Attention构建特征融合模块Multi-Transformer,实现特征的跨模态融合及上下文信息的交互。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111588292.1A CN114966696A (zh) | 2021-12-23 | 2021-12-23 | 一种基于Transformer的跨模态融合目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111588292.1A CN114966696A (zh) | 2021-12-23 | 2021-12-23 | 一种基于Transformer的跨模态融合目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114966696A true CN114966696A (zh) | 2022-08-30 |
Family
ID=82975248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111588292.1A Pending CN114966696A (zh) | 2021-12-23 | 2021-12-23 | 一种基于Transformer的跨模态融合目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114966696A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909316A (zh) * | 2023-02-21 | 2023-04-04 | 昆明理工大学 | 一种面向数据不均匀场景的轻量化端到端车牌识别方法 |
CN115937567A (zh) * | 2022-09-07 | 2023-04-07 | 北京交通大学 | 一种基于小波散射网络和ViT的图像分类方法 |
CN116665002A (zh) * | 2023-06-28 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法和装置 |
-
2021
- 2021-12-23 CN CN202111588292.1A patent/CN114966696A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115937567A (zh) * | 2022-09-07 | 2023-04-07 | 北京交通大学 | 一种基于小波散射网络和ViT的图像分类方法 |
CN115937567B (zh) * | 2022-09-07 | 2023-07-07 | 北京交通大学 | 一种基于小波散射网络和ViT的图像分类方法 |
CN115909316A (zh) * | 2023-02-21 | 2023-04-04 | 昆明理工大学 | 一种面向数据不均匀场景的轻量化端到端车牌识别方法 |
CN116665002A (zh) * | 2023-06-28 | 2023-08-29 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法和装置 |
CN116665002B (zh) * | 2023-06-28 | 2024-02-27 | 北京百度网讯科技有限公司 | 图像处理方法、深度学习模型的训练方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lin et al. | Depth estimation from monocular images and sparse radar data | |
US11532151B2 (en) | Vision-LiDAR fusion method and system based on deep canonical correlation analysis | |
CN113111887B (zh) | 一种基于相机和激光雷达信息融合的语义分割方法及系统 | |
Déziel et al. | Pixset: An opportunity for 3d computer vision to go beyond point clouds with a full-waveform lidar dataset | |
CN114966696A (zh) | 一种基于Transformer的跨模态融合目标检测方法 | |
CN111060924B (zh) | 一种slam与目标跟踪方法 | |
CN110443898A (zh) | 一种基于深度学习的ar智能终端目标识别系统及方法 | |
CN110738121A (zh) | 一种前方车辆检测方法及检测系统 | |
CN110675418A (zh) | 一种基于ds证据理论的目标轨迹优化方法 | |
Wang et al. | High dimensional frustum pointnet for 3d object detection from camera, lidar, and radar | |
CN114639115B (zh) | 一种人体关键点与激光雷达融合的3d行人检测方法 | |
Sun et al. | IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes | |
CN117274749A (zh) | 一种基于4d毫米波雷达和图像的融合3d目标检测方法 | |
Li et al. | Durlar: A high-fidelity 128-channel lidar dataset with panoramic ambient and reflectivity imagery for multi-modal autonomous driving applications | |
CN116630267A (zh) | 基于无人机与激光雷达数据融合的路基沉降监测方法 | |
CN117746134A (zh) | 检测框的标签生成方法、装置、设备以及存储介质 | |
CN117557983A (zh) | 基于深度正向投影和查询反投影的场景重构方法及驾驶辅助系统 | |
CN117452396A (zh) | 基于4d毫米波雷达和相机融合的3d目标检测系统及方法 | |
CN117423077A (zh) | Bev感知模型、构建方法、装置、设备、车辆及存储介质 | |
CN115330976A (zh) | 一种障碍物检测方法、电子设备、存储介质及程序产品 | |
Cui et al. | Homography‐based traffic sign localisation and pose estimation from image sequence | |
Faseeh et al. | Geo-temporal selective approach for dynamic depth estimation in outdoor object detection and distance measurement | |
Diskin et al. | UAS exploitation by 3D reconstruction using monocular vision | |
Wu et al. | CTMANet: A CNN-Transformer Hybrid Semantic Segmentation Network for Fine-Grained Airport Extraction in Complex SAR Scenes | |
Tham et al. | A Real-Time Distance Prediction via Deep Learning and Microsoft Kinect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |