[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114966696A - 一种基于Transformer的跨模态融合目标检测方法 - Google Patents

一种基于Transformer的跨模态融合目标检测方法 Download PDF

Info

Publication number
CN114966696A
CN114966696A CN202111588292.1A CN202111588292A CN114966696A CN 114966696 A CN114966696 A CN 114966696A CN 202111588292 A CN202111588292 A CN 202111588292A CN 114966696 A CN114966696 A CN 114966696A
Authority
CN
China
Prior art keywords
radar
information
image
transformer
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111588292.1A
Other languages
English (en)
Inventor
沈韬
向思佳
曾凯
马倩
张小青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111588292.1A priority Critical patent/CN114966696A/zh
Publication of CN114966696A publication Critical patent/CN114966696A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/93Radar or analogous systems specially adapted for specific applications for anti-collision purposes
    • G01S13/931Radar or analogous systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Electromagnetism (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明涉及一种基于Transformer的跨模态融合目标检测方法,属于图像处理技术领域。本发明利用雷达传感器收集雷达数据同时摄像头收集图像数据。将毫米波雷达信息与图像信息进行对齐操作,包括时间对齐和空间坐标转换,同时将雷达特征映射到图像平面上。依据雷达物理特性对雷达信息进行预处理。构建特征提取网络,分别提取雷达特征和图像特征。设计雷达与视觉特征交互融合模块,充分考虑跨模态信息交互和上下文环境信息的补充学习。本发明与现有技术相比,将周围环境信息结合跨模态信息进行联合学习。解决了传统方法仅仅只能获取相同位置信息,缺乏对周围环境信息的感知的问题,同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。

Description

一种基于Transformer的跨模态融合目标检测方法
技术领域
本发明涉及一种基于Transformer的跨模态融合目标检测方法,属于图像处理技术领域。
背景技术
辅助驾驶任务需要保证检测的实时性与准确性,单传感器难以适应复杂场景下的目标检测以及实时决策,从而增加驾驶风险。利用多传感器信息融合的方式能有效降低在复杂天气和场景下的漏检率和误检率,保证堵辅助驾驶的安全性。随着深度学习成为目标检测任务的主流方式,多传感器的融合形式也逐渐趋向于利用深度学习框架融合多模态特征。由于当前融合方法具有局限性,侧重于对局部信息进行建模,忽略了对周围环境的关注与感知。同时缺少分析不同传感器的特性导致采集数据的差异性,无法实现不同传感器信息的合理利用及交互补充。
发明内容
本发明要解决的技术问题是提供一种基于Transformer的跨模态融合目标检测方法,将周围环境信息结合跨模态信息进行联合学习,从而解决传统方法仅仅只能获取相同位置信息,缺乏对周围环境信息的感知的问题,同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。
本发明的技术方案是:一种基于Transformer的跨模态融合目标检测方法,其特征在于:
Step1:分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息;
Step2:将雷达信息以点云数据的形式呈现,并将两种模态的数据进行时间与空间的对齐,保证数据形式的一致性;
Step3:使用坐标转换将3D雷达点云信息映射到图像的2D平面上,映射后的雷达信息是一个含有18个通道的矩阵,其大小与图像矩阵保持一致;
Step4:对单个雷达点进行扩充增强,使其更适应目标真实尺寸;
Step5:将经过增强后的雷达信息与图像数据进行特征提取及融合;
Step6:最后,对其进行分类和识别。
所述Step4,对对单个雷达点进行扩充增强具体步骤为:
Step4.1:明确雷达点映射在图像上的空间位置坐标;
Step4.2:依据目标距离传感器的距离以及雷达传回的雷达截面积(RCS)进行建模,获取目标显示在图像上的高度,以补充雷达采集信息时对目标高度信息的缺失,将高度记为
Figure BDA0003428335190000021
Step4.3:将原始雷达点依据获取的高度在图像上扩充成一条长度为
Figure BDA0003428335190000022
的线段,基于此补充目标高度信息的缺失;
Step4.4:基于雷达截面积信息对增强的线段横向扩充,扩充宽度为S,以补充目标缺失的宽度信息,此时经过完整增强后的是一个矩形区域,该区域即为雷达重点关注区域,且该区域内的全部信息都与增强前的单个雷达点信息保持一致。
所述Step5具体步骤为:
Step5.1:使用VGG16作为特征提取网络,输入分别为雷达信息与图像信息,经过每一个block后进行特征融合;
Step5.2:构建RC-Attention,实现不同模态相似性的计算;
Step5.3:基于RC-Attention构建特征融合模块Multi-Transformer,实现特征的跨模态融合及上下文信息的交互。
本发明所使用的数据集为nuScenes数据集。数据集由1000个场景组成,每个场景的时长为20秒,包含了各种各样的情景。在每一个场景中,有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。
所述特征提取网络使用VGG16,并在每个block之间进行跨模态特征的融合。
所述融合方法设计了多模态信息交互模块Multi-Transformer,实现跨模态信息交互与全局上下文信息的联合补充学习。同时构建了一种新型注意力机制,实现不同模态相似性权重的深层计算。
本发明的有益效果是:本发明与现有技术相比,主要解决了不同传感器采集数据差异性带来的融合不充分的问题。在光照极暗或者恶劣天气下能有效降低误检率,同时对遮挡目标能有效识别。充分感知跨模态环境信息与全局上下文信息,增强对目标的检测与识别能力。
附图说明
图1是本发明步骤流程图;
图2是本发明跨模态交互融合方法的整体网络图;
图3是本发明所设计的融合模块Multi-Transformer的结构图;
图4是本发明最终检测的效果图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于Transformer的跨模态融合目标检测方法,具体步骤为:
Step1:在nuScenes数据集中读取前置毫米波雷达和前置摄像头关键帧信息。其中毫米波雷达返回目标距离,速度,雷达散射截面积(RCS)等物理信息,同时摄像头捕捉了目标的RGB信息。
所使用的nuScenes数据集,由1000个场景组成,每个场景的时长为20秒,包含了各种各样的情景。在每一个场景中,有40个关键帧。nuScenes数据集采用6个摄像头、1个激光雷达、5个毫米波雷达、GPS及1个惯性测量传感器进行数据采集。所述使用前置雷达以及前置摄像头的数据进行实验验证。
Step2:将毫米波雷达信息与图像信息进行空间对齐,同时将雷达特征映射到图像平面上;
具体为,首先将毫米波坐标系下的坐标转换到世界坐标系中;其次,将世界坐标系的坐标转换到图像坐标系中。经过转换之后,雷达信息是以二维点信息的形式存在。此时雷达特征图和图像特征图的尺寸分别为:900×1600×18,900×1600×3。将雷达特征和图像特征图沿通道拼接,实现雷达特征到二维图像的映射。
Step3:依据雷达物理特性对雷达信息进行预处理。
Step3.1:首先明确雷达点映射到图像平面的初始位置,记为Oi
Figure BDA0003428335190000031
其中,xi是第i个雷达点的垂直偏移,h是雷达传感器安装的初始高度,在本方法中h=0.5。τ和
Figure BDA0003428335190000032
是超参数,分别是位置因子和垂直偏移因子。
Step3.2:为了补充雷达传感器检测目标时,目标高度信息的缺失。本发明将单个雷达点扩展成为纵向扩充的线段
Figure BDA0003428335190000033
线段长度基于不同目标的雷达散射截面积RCSi以及距离disti进行自适应调整,以拟合目标呈现在图像的真实高度。
Figure BDA0003428335190000034
Figure BDA0003428335190000035
Figure BDA0003428335190000041
其中,α和β为超参数,分别为距离因子和散射截面积因子。
Step3.3:基于雷达点初始位置Oi,进行高度上的增强。将增强线段
Figure BDA00034283351900000411
分为两个部分l1和l2
Figure BDA0003428335190000042
Figure BDA0003428335190000043
Figure BDA0003428335190000044
Step3.4:依据雷达散射截面积RCSi对目标进行横向增强,增强宽度为Si,以补充缺失的宽度信息。
Figure BDA0003428335190000045
Step 4:构建特征提取网络,分别提取雷达特征和图像特征;
本发明首先进行特征提取,输入分别为经过预处理和增强操作后的雷达特征图以及视觉特征,特征图尺寸分别为:900×1600×2,900×1600×3。使用主成分分析法筛选出从雷达18个通道中筛选出2个特征明显的通道,分别是:距离与雷达截面积。图像特征通道数为3,包含了RGB信息。
Step5:设计雷达与视觉特征交互融合模块,充分考虑跨模态信息交互和上下文环境信息的补充学习。
如图2所示,在特征提取网络第三、四、五个block之后,使用Multi-Transformer模块进行多模态特征的融合。融合模块的整体结构如图3所示。
首先模块的输入分别为雷达特征,以及图像特征。由于空间对齐以及融合操作,故此时输入的雷达特征和图像特征维度相同,尺寸一致。
在Encoder和Decoder中实现了模态间以及模态内的相似性计算,如图四所示。
其中RC-Attention通过计算两个模态特征图中任意位置信息的相似性,赋予不同模态间相似性权重,实现跨模态特征匹配,从而达到跨模态信息的交互。输出为融合了图像信息的雷达特征,以及融合了雷达信息的图像特征如图3所示。
Figure BDA0003428335190000046
Figure BDA0003428335190000047
Figure BDA0003428335190000048
Figure BDA0003428335190000049
Figure BDA00034283351900000410
Vβ=Linear(Xβ+PE(Xβ))
其中,Linear(·)为线性变换,Separate(·)将不同特征的头进行进一步的拆分,PE(·是位置编码。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种基于Transformer的跨模态融合目标检测方法,其特征在于:
Step1:分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息;
Step2:将雷达信息以点云数据的形式呈现,并将两种模态的数据进行时间与空间的对齐;
Step3:使用坐标转换将3D雷达点云信息映射到图像的2D平面上,映射后的雷达信息是一个含有18个通道的矩阵,其大小与图像矩阵保持一致;
Step4:对单个雷达点进行扩充增强;
Step5:将经过增强后的雷达信息与图像数据进行特征提取及融合;
Step6:最后,对其进行分类和识别。
2.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法,其特征在于,所述Step4,对对单个雷达点进行扩充增强具体步骤为:
Step4.1:明确雷达点映射在图像上的空间位置坐标;
Step4.2:依据目标距离传感器的距离以及雷达传回的雷达截面积进行建模,获取目标显示在图像上的高度,将高度记为l;
Step4.3:将原始雷达点依据获取的高度在图像上扩充成一条长度为l的线段;
Step4.4:基于雷达截面积信息对增强的线段横向扩充,扩充宽度为,此时经过完整增强后的是一个矩形区域,该区域即为雷达重点关注区域,且该区域内的全部信息都与增强前的单个雷达点信息保持一致。
3.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法,其特征在于,所述Step5具体步骤为:
Step5.1:使用VGG16作为特征提取网络,输入分别为雷达信息与图像信息,经过每一个block后进行特征融合;
Step5.2:构建RC-Attention,实现不同模态相似性的计算;
Step5.3:基于RC-Attention构建特征融合模块Multi-Transformer,实现特征的跨模态融合及上下文信息的交互。
CN202111588292.1A 2021-12-23 2021-12-23 一种基于Transformer的跨模态融合目标检测方法 Pending CN114966696A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111588292.1A CN114966696A (zh) 2021-12-23 2021-12-23 一种基于Transformer的跨模态融合目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111588292.1A CN114966696A (zh) 2021-12-23 2021-12-23 一种基于Transformer的跨模态融合目标检测方法

Publications (1)

Publication Number Publication Date
CN114966696A true CN114966696A (zh) 2022-08-30

Family

ID=82975248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111588292.1A Pending CN114966696A (zh) 2021-12-23 2021-12-23 一种基于Transformer的跨模态融合目标检测方法

Country Status (1)

Country Link
CN (1) CN114966696A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909316A (zh) * 2023-02-21 2023-04-04 昆明理工大学 一种面向数据不均匀场景的轻量化端到端车牌识别方法
CN115937567A (zh) * 2022-09-07 2023-04-07 北京交通大学 一种基于小波散射网络和ViT的图像分类方法
CN116665002A (zh) * 2023-06-28 2023-08-29 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937567A (zh) * 2022-09-07 2023-04-07 北京交通大学 一种基于小波散射网络和ViT的图像分类方法
CN115937567B (zh) * 2022-09-07 2023-07-07 北京交通大学 一种基于小波散射网络和ViT的图像分类方法
CN115909316A (zh) * 2023-02-21 2023-04-04 昆明理工大学 一种面向数据不均匀场景的轻量化端到端车牌识别方法
CN116665002A (zh) * 2023-06-28 2023-08-29 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法和装置
CN116665002B (zh) * 2023-06-28 2024-02-27 北京百度网讯科技有限公司 图像处理方法、深度学习模型的训练方法和装置

Similar Documents

Publication Publication Date Title
Lin et al. Depth estimation from monocular images and sparse radar data
US11532151B2 (en) Vision-LiDAR fusion method and system based on deep canonical correlation analysis
CN113111887B (zh) 一种基于相机和激光雷达信息融合的语义分割方法及系统
Déziel et al. Pixset: An opportunity for 3d computer vision to go beyond point clouds with a full-waveform lidar dataset
CN114966696A (zh) 一种基于Transformer的跨模态融合目标检测方法
CN111060924B (zh) 一种slam与目标跟踪方法
CN110443898A (zh) 一种基于深度学习的ar智能终端目标识别系统及方法
CN110738121A (zh) 一种前方车辆检测方法及检测系统
CN110675418A (zh) 一种基于ds证据理论的目标轨迹优化方法
Wang et al. High dimensional frustum pointnet for 3d object detection from camera, lidar, and radar
CN114639115B (zh) 一种人体关键点与激光雷达融合的3d行人检测方法
Sun et al. IRDCLNet: Instance segmentation of ship images based on interference reduction and dynamic contour learning in foggy scenes
CN117274749A (zh) 一种基于4d毫米波雷达和图像的融合3d目标检测方法
Li et al. Durlar: A high-fidelity 128-channel lidar dataset with panoramic ambient and reflectivity imagery for multi-modal autonomous driving applications
CN116630267A (zh) 基于无人机与激光雷达数据融合的路基沉降监测方法
CN117746134A (zh) 检测框的标签生成方法、装置、设备以及存储介质
CN117557983A (zh) 基于深度正向投影和查询反投影的场景重构方法及驾驶辅助系统
CN117452396A (zh) 基于4d毫米波雷达和相机融合的3d目标检测系统及方法
CN117423077A (zh) Bev感知模型、构建方法、装置、设备、车辆及存储介质
CN115330976A (zh) 一种障碍物检测方法、电子设备、存储介质及程序产品
Cui et al. Homography‐based traffic sign localisation and pose estimation from image sequence
Faseeh et al. Geo-temporal selective approach for dynamic depth estimation in outdoor object detection and distance measurement
Diskin et al. UAS exploitation by 3D reconstruction using monocular vision
Wu et al. CTMANet: A CNN-Transformer Hybrid Semantic Segmentation Network for Fine-Grained Airport Extraction in Complex SAR Scenes
Tham et al. A Real-Time Distance Prediction via Deep Learning and Microsoft Kinect

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination