CN117789160A

CN117789160A - 一种基于聚类优化的多模态融合目标检测方法及系统

Info

Publication number: CN117789160A
Application number: CN202311569090.1A
Authority: CN
Inventors: 肖进胜; 周剑; 谢红刚; 宋成芳; 章红平
Original assignee: NATION ENGINEERING RESEARCH CENTER FOR SATELLITE POSITIONING SYSTEM; Wuhan University WHU
Current assignee: NATION ENGINEERING RESEARCH CENTER FOR SATELLITE POSITIONING SYSTEM; Wuhan University WHU
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-03-29

Abstract

本发明提供一种基于聚类优化的多模态融合目标检测方法及系统，方法包括：获取包含待检测目标的2D图像和3D点云；将2D图像输入带有CBMA注意力模块的二维目标检测网络中，获取2D图像中每一个目标的2D检测框；将每一个目标的2D检测框与3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域；将每一个目标的锥形感兴趣区域输入三维目标检测网络中，获取每一个目标的3D检测框；基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。本发明采用了基于聚类优化的3D目标检测网络架构，大大提高行人、骑行人等较小目标的平均检测精度。

Description

一种基于聚类优化的多模态融合目标检测方法及系统

技术领域

本发明涉及目标检测领域，更具体地，涉及一种基于聚类优化的多模态融合目标检测方法及系统。

背景技术

在道路上的目标检测领域，对于小目标的检测，发现点云自身具有稀疏性，例如，KITTI数据集的点云投影到对应的RGB图像上，大约只有3％的像素才有对应的点云，并且该数据集中大约一半的Moderate和Hard难度的目标点云的点数少于60个，这就导致3D小目标的结构和语义信息不完整，且待检测目标容易与背景混淆。特别是远处行人和直杆的点云可能呈现几乎相同的几何形状，从而造成误检。

为达成该目的，主要使用的背景技术主要为基于F-PointNet的图像点云检测算法，该技术目前在目前的应用环境中依然存在某些缺陷。

第一类由于KITTI数据集中大目标和小目标数据不均衡的问题：

1、数据采集偏差问题：大部分KITTI数据集是通过车载传感器(如激光雷达和相机)采集的，这些传感器更容易检测到大目标，如汽车和卡车。这导致了大目标数据的相对丰富，而小目标数据(如行人和自行车)的数量有限。这一不均衡可能会使深度学习模型更倾向于学习大目标，而对小目标的检测性能不佳。

2、目标检测模型的偏差问题：许多传统的目标检测模型，如Faster R-CNN、YOLO等，在设计时更注重大目标的检测，而在小目标上表现不佳。这是因为这些模型在训练过程中，大目标的损失值通常较大，从而影响了对小目标的学习。因此，模型偏差也是导致大目标和小目标不均衡问题的一个子问题。

第二类则是远处3D小目标点云稀疏，易与背景混淆的问题：

1、稀疏点云问题：远处的小目标可能由于距离较远，造成激光雷达或其他传感器采集到的点云数据非常稀疏。这意味着点云中存在大量缺失的数据点，使得目标的形状和特征难以准确捕获。如何处理这些稀疏点云数据，以便准确地检测和识别小目标，是一个重要的问题。

2、背景混淆问题：在复杂的城市环境中，小目标的点云可能会与周围背景混淆，因为它们可能与建筑物、道路、树木等环境元素具有相似的特征。这导致了目标与背景之间的难以区分性，从而增加了误检测的风险。解决这个问题需要开发算法来准确区分小目标与背景，并利用上下文信息来提高识别准确性。

3.远距离目标检测问题:离目标检测相对于近距离目标检测更具挑战性，因为在远处，小目标的点云可能会因大范围散射、光照变化和传感器限制而受到干扰。因此，如何开发算法以有效地检测和识别远处的小目标，是另一个重要问题。

发明内容

本发明针对现有技术中存在的技术问题，提供一种基于聚类优化的多模态融合目标检测方法及系统。

根据本发明的第一方面，提供了一种基于聚类优化的多模态融合目标检测方法方法，包括：

获取包含待检测目标的2D图像和3D点云；

将所述2D图像输入带有CBMA注意力模块的二维目标检测网络中，获取2D图像中每一个目标的2D检测框；

将每一个目标的2D检测框与3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域；

将每一个目标的锥形感兴趣区域输入三维目标检测网络中，获取每一个目标的3D检测框；

基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述二维目标检测网络为包含CBAM注意力机制增强的Yolov5网络，其中，对所述二维目标检测网络的训练包括：

获取原始训练集，所述原始训练数据集中包括多张2D图像，每一张2D图像中包含大目标和/或小目标，所述大目标是指尺寸超过预设尺寸的目标，所述小目标是指尺寸小于预设尺寸的目标；

将部分2D图像中的大目标等比例压缩后，粘贴复制到部分不包含该类别目标的2D图像中，获取对小目标进行扩充后的训练数据集；

基于扩充后的训练数据集对Yolov5网络进行训练，获取训练后的二维目标检测网络；

其中，所述Yolov5网络中包含CBAM注意力模块，所述CBAM注意力模块包括空间注意力子模块和通道注意力子模块，分别增强所述Yolov5网络对目标关注区域的空间注意力和通道注意力。

可选的，所述基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框，包括：

对于2D检测框的高度大于预设像素的目标，直接将该目标的3D检测框作为该目标的最终3D检测框；

对于存在2D检测框但是不存在3D检测框的目标，当该目标的2D检测框的置信度大于第一预设置信度时，根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框；

对于存在2D检测框和3D检测框的目标，当该目标的3D检测框的置信度小于第二预设置信度时，根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

可选的，所述根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框，包括：

对该目标的锥形感兴趣区域的点云基于欧式距离进行聚类，得到至少一个聚类结果；

当存在多个聚类结果时，从中筛选出与该目标的2D检测框的中心距离最近的聚类结果作为该目标的最终3D检测框。

可选的，当与该目标的2D检测框的中心距离最近的聚类结果有多个时，选择其中点云数量最多的聚类结果作为该目标的最终3D检测框。

可选的，还包括对每一个小目标的位置和尺寸进行修补：

根据三维目标检测网络输出的每一个小目标的尺寸，计算每一类别的小目标的平均尺寸，所述平均尺寸包括平均长宽高；

将每一个类别的小目标的最终3D检测框的尺寸调整到平均尺寸。

可选的，所述原始训练数据集中记录了每一类别目标的2D检测框的高度与其相对于激光雷达距离的对应关系；

在对聚类结果进行筛选时，根据该目标的2D检测框的高度以及每一类别目标的2D检测框的高度与其相对于激光雷达距离的对应关系，确定该目标的3D检测框中心的位置范围；

若该目标的聚类结果的中心位置在所述位置范围内，则保留聚类结果，否则，丢弃聚类结果。

可选的，所述原始训练数据集中记录了每一类别目标的2D检测框的旋转角；

在对聚类结果进行筛选时，根据每一个聚类结果中的点云在水平方向上的最远点与最近点的连线相对于x轴的夹角，确定每一个聚类结果的旋转角，如果聚类结果的旋转角与相同类别目标的2D检测框的旋转角之间的差异小于预设差异值，则保留聚类结果，否则，丢弃聚类结果。

根据本发明的第二方面，提供一种基于聚类优化的多模态融合目标检测系统，包括：

第一获取模块，用于获取包含待检测目标的2D图像和3D点云；

第二获取模块，用于将所述2D图像输入带有CBMA注意力模块的二维目标检测网络中，获取2D图像中每一个目标的2D检测框；

映射模块，用于将每一个目标的2D检测框与3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域；

第三获取模块，用于将每一个目标的锥形感兴趣区域输入三维目标检测网络中，获取每一个目标的3D检测框；

融合模块，用于基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

根据本发明的第三方面，提供了一种电子设备，包括存储器、处理器，所述处理器用于执行存储器中存储的计算机管理类程序时实现基于聚类优化的多模态融合目标检测方法的步骤。

根据本发明的第四方面，提供了一种计算机可读存储介质，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现基于聚类优化的多模态融合目标检测方法的步骤。

本发明提供的一种基于聚类优化的多模态融合目标检测方法及系统，采用了基于聚类优化的3D目标检测网络架构，大大提高行人、骑行人等较小目标的平均检测精度。

附图说明

图1为本发明提供的一种基于聚类优化的多模态融合目标检测方法流程图；

图2为将大目标等比缩小后粘贴复制到其它图像中的效果图；

图3为CBAM注意力模块的结构示意图；

图4为点云聚类流程示意图；

图5为聚类框补全示意图；

图6为遮挡情况下聚类示意图；

图7-1为行人的2D框高度与其距激光雷达距离的对应关系曲线示意图；

图7-2为骑自行车的人的2D框高度与其距激光雷达距离的对应关系曲线示意图；

图8为旋转错位示意图；

图9为一种基于聚类优化的多模态融合目标检测方法的整体架构示意图；

图10为本发明提供的一种基于聚类优化的多模态融合目标检测系统的结构示意图；

图11为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。另外，本发明提供的各个实施例或单个实施例中的技术特征可以相互任意结合，以形成可行的技术方案，这种结合不受步骤先后次序和/或结构组成模式的约束，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

图1为本发明提供的一种基于聚类优化的多模态融合目标检测方法流程图，如图1所示，方法包括：

步骤1，获取包含待检测目标的2D图像和3D点云。

可理解的是，在检测目标时，获取包含检测目标的2D图像和3D点云，后续基于2D图像和3D点云对目标进行3D检测。

步骤2，将所述2D图像输入带有CBMA注意力模块的二维目标检测网络中，获取2D图像中每一个目标的2D检测框。

可理解的是，在进行目标检测时，将2D图像输入二维目标检测网络中，获取2D图像中的每一个目标的2D检测框，其中，2D检测框为矩形检测框。

所述二维目标检测网络为包含CBAM注意力机制增强的Yolov5网络，其中，对所述二维目标检测网络的训练包括：

可理解的是，由于KITTI数据集中存在大目标和小目标数量严重不均衡的问题，即大目标的数量远远多于小目标。为了提高Yolov5针对小目标的检测精度，首先对KITTI数据集的图像部分利用改进的复制粘贴模块进行数据增强，进而提升网络对小目标的检测性能。此处，不是将目标直接复制粘贴回原图，而是将Pedestrian(行人)和Cyclist(骑自行车的人)类别中高度大于25像素的目标进行等比缩小后，随机粘贴到部分不含有该类别实例的图像中，从而增加小目标实例的数量。进行数据增强后，相比未进行数据增强时，Cyclist类别实例的数量被扩充了一倍，Pedestrian类别实例的数量被扩充了30％。

基于数据增强后的数据集对Yolov5网络进行训练，得到训练后的二维目标检测网络。图2为本发明所提改进的复制粘贴模块作用于KITTI数据集放大后的效果图，图2中框内为增强的标注目标。在数据增强的过程中，保证复制粘贴的新目标不与原有目标重合。通过这种方式，可以提高小目标在训练中对损失的贡献，从而防止网络收敛于较大目标。

其中，二维目标检测网络为基于CBAM注意力模块改进的Yolov5网络，CBAM(Convolutional Block Attention Module)是一种用于卷积神经网络的注意力机制，其网络结构如图3所示，它是空间注意力模块SAM(Spatial Attention Module)以及通道注意力模块CAM(Channel Attention Module)的结合。在空间注意力中，网络模型会学习到每个像素点的权重，以此来加权不同位置的特征向量，从而使模型更加关注于当前任务的重要区域。通道注意力模块则会对特征图每个通道的重要性进行学习，从而调整这些通道的权重以增强模型的整体性能。

将CBAM注意力模块加入到2D检测器中可以有效地提高网络提取目标特征的能力，因此，为了提升Yolov5对小目标的检测效果，本文对Yolov5添加了CBAM注意力模块以改善性能。

步骤3，将每一个目标的2D检测框与3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域。

步骤4，将每一个目标的锥形感兴趣区域输入三维目标检测网络中，获取每一个目标的3D检测框。

可理解的是，将二维目标检测网络检测到的2D图像中的每一个目标的2D检测框和3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域。然后将每一个目标的锥形感兴趣区域输入到三维目标检测网络中，得到每一个目标的3D检测框。

步骤5，基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

可理解的是，根据每一个目标的2D检测框和3D检测框的情况，确定每一个目标的最终3D检测框，本发明中基于聚类优化模块对每一个2D检测框和3D检测框的结果进行融合处理。

对于2D检测框的高度大于预设像素的目标，直接将该目标的3D检测框作为该目标的最终3D检测框。比如，对于汽车类别的目标以及2D检测框高度大于30像素的目标，在3D目标检测部分不使用聚类模块对检测结果进行优化，也即如果是大目标，则不使用聚类优化模块，直接输出目标的3D检测框。

对于存在2D检测框但是不存在3D检测框的目标，当该目标的2D检测框的置信度大于第一预设置信度时，根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

可理解的是，对于2D部分检测到但3D部分没检测到的目标，那么目标只有2D检测框，仅当2D检测框置信度大于0.2时才使用聚类优化模块对2D检测结果进行补充，得到目标的3D检测框。当目标的2D检测框的置信度小于0.2时，说明目标的2D检测框也不可信，那么判定为检测不到该目标，或者说该目标不存在。

可理解的是，对于2D部分和3D部分都检测到的情况，当目标3D检测框置信度小于0.5时，使用聚类模块对2D检测结果进行优化得到目标的3D检测框。当目标3D检测框置信度大于0.5，则直接输出三维目标检测网络检测的目标的3D检测框作为最终结果。

作为实施例，所述根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框，包括：对该目标的锥形感兴趣区域的点云基于欧式距离进行聚类，得到至少一个聚类结果；当存在多个聚类结果时，从中筛选出与该目标的2D检测框的中心距离最近的聚类结果作为该目标的最终3D检测框。

可理解的是，聚类是一种基于相似性原理将数据进行分组的无监督机器学习技术。首先选择数据的一种特征并设定特征阈值，然后不断合并两个特征最相近且小于阈值的类，直到所有类的特征都大于阈值时聚类完成。本发明实施例提出的聚类模块基于点云的欧式聚类。欧式聚类是一种基于欧式距离度量的聚类算法，可以通过建立的拓扑关系搜索每个点云的相邻点并计算出二者的欧式距离，然后根据欧氏距离来完成聚类，具体流程如图4所示。

点云聚类通常会产生多个聚类结果，若聚类结果的数量大于1，则对聚类结果进行筛选优化。由于目标往往位于2D检测框中心，因此2D检测框所产生的点云锥形感兴趣区域中最靠近中心的聚类结果最可能是目标，因此，从多个聚类结果中筛选出与该目标的2D检测框的中心距离最近的聚类结果作为该目标的最终3D检测框。当与该目标的2D检测框的中心距离最近的聚类结果有多个时，选择其中点云数量最多的聚类结果作为该目标的最终3D检测框。

点云聚类的实现并不困难，但是如何保证聚类结果的准确性是一个问题。通过多次实验可以发现，即使对原始的聚类结果做了一定的筛选，仍然会存在很多错误的结果。研究中发现，聚类结果不准确主要是由以下三个问题导致的，下面将分别对问题产生的原因和解决办法进行阐述：

第一，基于深度学习的3D目标检测算法可以通过训练来获得样本的一些先验信息，在对3D目标进行预测时，即使点云的形状不完整，依然可以获得一个大小与实际目标相近的框，这样在计算交并比时评估脚本才能把该预测框判定为正样本。而聚类是一种无监督算法，聚类得到的预测框的边界受到最外侧点的限制，不能自动补全为目标应该有的大小。如图5所示，实线框为实际目标框，虚线框为聚类产生的框，可以看出，虽然聚类框正确地框到了目标点云，但由于没有自动补全为目标大小，导致该预测框与实际框的交并比小于阈值，因此评估脚本会把该预测框判断为错误的结果。

为了解决上述问题，本发明还包括对每一个小目标的位置和尺寸进行修补：根据三维目标检测网络输出的每一个小目标的尺寸，计算每一类别的小目标的平均尺寸，所述平均尺寸包括平均长宽高；将每一个类别的小目标的最终3D检测框的尺寸调整到平均尺寸。

具体的，利用目标的先验信息对聚类预测框进行优化，对于Pedestrian(行人)以及Cyclist(骑自行车的人)类别，统计了KITTI数据集中所有的样本，算出了这两类目标的平均尺寸。其中，Pedestrian类别的长宽高分别为0.83米，0.64米以及1.77米；Cyclist类别的平均长宽高分别为1.77米，0.58米以及1.73。当完成聚类后，将根据聚类中心的位置以及目标尺寸的先验信息对聚类预测框进行补全，如图5虚线框所示，从而使聚类结果更好地与目标实际框进行匹配。

第二，聚类会存在多个结果，虽然可以通过优先选择点云感兴趣区域正视图中聚类中心点数最多的目标当作最终的结果，但如果存在遮挡，依然无法保证聚类的结果的正确性。如图6所示，从2D图像可以看出，总共存在四个目标，其中两个目标被严重遮挡，这时使用聚类的方法会在错误的位置产生结果。

为了解决上述问题，原始训练数据集中记录了每一类别目标的2D检测框的高度与其相对于激光雷达距离的对应关系；在对聚类结果进行筛选时，根据该目标的2D检测框的高度以及每一类别目标的2D检测框的高度与其相对于激光雷达距离的对应关系，确定该目标的3D检测框中心的位置范围；若该目标的聚类结果的中心位置在所述位置范围内，则保留聚类结果，否则，丢弃聚类结果。

可理解的是，为了解决上述的第二类问题，本发明实施例统计了KITTI训练集中同一目标的2D检测框高度与其相对与激光雷达距离的对应关系，图7-1展示了行人(Pedestrian)的2D检测框高度与其相对与激光雷达距离的对应关系曲线，图7-2展示了骑自行车的人(Cyclist)的2D检测框高度与其相对与激光雷达距离的对应关系曲线，其中横轴为2D检测框高度，单位为像素，纵轴为3D目标距离激光雷达的距离，单位为米。当在筛选聚类结果时，根据2D检测框的高度，可以确定目标3D中心的合理范围，这样可以舍弃掉一部分错误结果。

第三，当确定了聚类中心和3D框的长宽高以后，还需要知道目标的旋转角从而更好的生成预测框。如图8所示，实线表示实际目标框，虚线表示聚类的目标框，对于Cyclist类，错误的旋转角会大大影响到交并比的计算。

为了解决这个问题，所述原始训练数据集中记录了每一类别目标的2D检测框的旋转角；在对聚类结果进行筛选时，根据每一个聚类结果中的点云在水平方向上的最远点与最近点的连线相对于x轴的夹角，确定每一个聚类结果的旋转角，如果聚类结果的旋转角与相同类别目标的2D检测框的旋转角之间的差异小于预设差异值，则保留聚类结果，否则，丢弃聚类结果。

针对第三类问题，可以根据聚类结果中的点云在水平方向上的最远点与最近点的连线相对于x轴的夹角来直接确定预测框的旋转角，将预测框的旋转角与2D检测框的旋转角之间的差异，如果预测框的旋转角与2D检测框的旋转角之间的差异太大，则说明该目标预测不准确，则放弃。

参见图9，为基于聚类优化的多模态融合目标检测方法的整体流程图，使用CBAM注意力机制增强的Yolov5作为二维目标检测网络，利用2D检测结果生成锥形感兴趣区域后，会将感兴趣区域中的点云数据同时送入到三维目标检测网络以及聚类模块中，随后综合三维目标检测网络以及聚类模块的输出判断出最终的结果。当二维目标检测网络输出的目标为较大目标，则不对点云进行聚类，直接使用三维目标检测网络输出的结果。如果是小目标则根据2D检测框的高度、三维目标检测网络输出的分数以及聚类的结果进行综合判断，最后输出最终的检测框结果。

本发明采用了基于聚类优化的3D目标检测网络架构，大大提高行人、骑行人等较小目标的平均检测精度。

从性能角度来看，在kitti数据集上进行测试，对比经典网络VoxelNet，本发明算法在三种难度下均有提升。对比F-PointNet，本发明在moderate难度下，三种类别的AP(average precision)分别增加了1.22％，5.23％，5.07％，在hard难度下，三种类别的AP分别增加了2.6％，6.76％，8.48％，对比PV-RCNN，hard难度下cyclist类别提高了3.1％。

从泛化型角度来看，该方法提出的数据增强算法可以迁移到其他数据集中，具有广泛的应用价值。算法提高了模型的泛化能力，可以帮助模型更好地适应不同的场景和数据分布。模型在训练时接触到多种变化，更有可能在测试时处理不同的数据情况。

从效率来看，采用的点云和图像的特征级融合方案相较于点级融合方案而言，所需的计算量显著降低。特征级融合通常涉及对高层特征图进行融合，而不需要在原始输入数据的每个点上执行融合操作。这可以显著减少计算复杂度，尤其对于大规模的输入数据而言，能够提高模型的训练和推理效率。

参见图10，提供了本发明的一种基于聚类优化的多模态融合目标检测系统，包括第一获取模块1001、第二获取模块1002、映射模块1003、第三获取模块1004和融合模块1005，其中：

第一获取模块1001，用于获取包含待检测目标的2D图像和3D点云；

第二获取模块1002，用于将所述2D图像输入带有CBMA注意力模块的二维目标检测网络中，获取2D图像中每一个目标的2D检测框；

映射模块1003，用于将每一个目标的2D检测框与3D点云进行坐标映射，生成每一个目标的锥形感兴趣区域；

第三获取模块1004，用于将每一个目标的锥形感兴趣区域输入三维目标检测网络中，获取每一个目标的3D检测框；

融合模块1005，用于基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框。

可以理解的是，本发明提供的一种基于聚类优化的多模态融合目标检测系统与前述各实施例提供的基于聚类优化的多模态融合目标检测方法相对应，基于聚类优化的多模态融合目标检测系统的相关技术特征可参考多源异构模型的切片融合方法的相关技术特征，在此不再赘述。

请参阅图11，图11为本发明提供的一种计算机可读存储介质的实施例示意图。如图11所示，本实施例提供了一种计算机可读存储介质1100，其上存储有计算机程序1111，该计算机程序1111被处理器执行时实现基于聚类优化的多模态融合目标检测方法的步骤。

本发明实施例提供的一种基于聚类优化的多模态融合目标检测方法及系统，针对大目标和小目标数据不均衡的问题，采用了复制粘贴模块进行改进，将大目标等比缩小后粘贴到其他图片以增加小目标的数量，从而增加小目标在训练中对损失的贡献值。还提出了一种融合目标先验信息的点云欧式聚类模块，并使用该模块对三维目标检测网络输出的检测结果进行优化补充，大大提高了网络整体对3D小目标的检测精度，并且在二维目标检测Yolov5网络中添加了CBAM注意力模块，使网络更加关注图像的重要区域以提高Yolov5对小目标的检测精度，从而使网络利用2D检测结果生成更好的锥形点云感兴趣区域。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种基于聚类优化的多模态融合目标检测方法，其特征在于，包括：

获取包含待检测目标的2D图像和3D点云；

2.根据权利要求1所述的多模态融合目标检测方法，其特征在于，所述二维目标检测网络为包含CBAM注意力机制增强的Yolov5网络，其中，对所述二维目标检测网络的训练包括：

3.根据权利要求1所述的多模态融合目标检测方法，其特征在于，所述基于每一个目标的2D检测框和3D检测框，融合先验信息点的聚类方法获取每一个目标的最终3D检测框，包括：

4.根据权利要求3所述的多模态融合目标检测方法，其特征在于，所述根据该目标的2D检测框和该目标的锥形感兴趣区域，融合先验信息点的聚类方法获取每一个目标的最终3D检测框，包括：

5.根据权利要求4所述的多模态融合目标检测方法，其特征在于，当与该目标的2D检测框的中心距离最近的聚类结果有多个时，选择其中点云数量最多的聚类结果作为该目标的最终3D检测框。

6.根据权利要求4所述的多模态融合目标检测方法，其特征在于，还包括对每一个小目标的位置和尺寸进行修补：

7.根据权利要求4所述的多模态融合目标检测方法，其特征在于，所述原始训练数据集中记录了每一类别目标的2D检测框的高度与其相对于激光雷达距离的对应关系；

8.根据权利要求4所述的多模态融合目标检测方法，其特征在于，所述原始训练数据集中记录了每一类别目标的2D检测框的旋转角；

9.一种基于聚类优化的多模态融合目标检测系统，其特征在于，包括：

第一获取模块，用于获取包含待检测目标的2D图像和3D点云；

10.一种计算机可读存储介质，其特征在于，其上存储有计算机管理类程序，所述计算机管理类程序被处理器执行时实现如权利要求1-8任一项所述的基于聚类优化的多模态融合目标检测方法的步骤。