CN118135455A

CN118135455A - 基于高位视频的三维目标检测方法及系统

Info

Publication number: CN118135455A
Application number: CN202410232552.9A
Authority: CN
Inventors: 闫军; 丁丽珠
Original assignee: Smart Intercommunication Technology Co ltd
Current assignee: Smart Intercommunication Technology Co ltd
Priority date: 2024-03-01
Filing date: 2024-03-01
Publication date: 2024-06-04

Abstract

本发明公开了基于高位视频的三维目标检测方法及系统，涉及图像处理领域。所述方法包括：基于位置点位集、角度点位集布设高位视频摄像装置，确定固定完成的多个高位视频摄像装置信息；根据多个高位视频摄像装置信息对目标区域进行图像采集，生成区域图像数据集；构建三维目标检测网络；对区域图像数据集进行预处理，将预处理数据集输入至三维目标检测网络进行目标检测，生成识别目标信息；基于识别目标信息进行三维重建输出目标三维信息，通过目标三维信息进行特征分析，根据特征分析结果锁定目标区域中的目标数据。解决了现有技术中采集的图像对道路场景感知受限的技术问题，达到了提高感知范围的技术效果。

Description

基于高位视频的三维目标检测方法及系统

技术领域

本发明涉及图像处理领域，具体涉及基于高位视频的三维目标检测方法及系统。

背景技术

近年来，高位视频技术发展迅速，通过在路侧安装高位视频摄像头，可对车辆的泊车进行判断与管理，通过进行车辆的检测、车身姿态的检测，然后与已知的泊位位置进行数据分析，从而判断车辆的状态，如车辆是否位于泊位内、车辆是否压线停车、车辆是否在禁停区停车等，此外，根据车辆的车身姿态判断车辆是否违停，从而对于城市的交通管理、行车安全等各个方面都具有积极地促进作用。目前，高位视频摄像头主要为单目相机，基于高位视频摄像头采集的二维图像主要进行二维的视觉算法开发和应用，如二维目标检测、语义分割、实例分割等，而单目三维目标检测算法是基于二维图像进行目标的三维信息进行估计，目前主要应用在自动驾驶等场景中，但是，安装在自动驾驶汽车上的单目相机，受限于汽车的车身高度，相机的可视高度较低，在所采集的图像中，对于车身周围的情况感知范围受限，且容易被周围的障碍物所遮挡，影响自动驾驶汽车对周围环境的感知，影响驾驶安全。

发明内容

本申请实施例提供了基于高位视频的三维目标检测方法及系统，解决了现有技术中采集的图像对道路场景感知受限的技术问题。

鉴于上述问题，本申请实施例提供了基于高位视频的三维目标检测方法及系统。

本申请实施例的第一个方面，提供了基于高位视频的三维目标检测方法，所述方法包括：

基于位置点位集、角度点位集布设高位视频摄像装置，确定固定完成的多个高位视频摄像装置信息；

根据所述多个高位视频摄像装置信息对目标区域进行图像采集，生成区域图像数据集；

构建三维目标检测网络；

对所述区域图像数据集进行预处理，将预处理数据集输入至所述三维目标检测网络进行目标检测，生成识别目标信息；

基于所述识别目标信息进行三维重建输出目标三维信息，通过所述目标三维信息进行特征分析，根据特征分析结果锁定目标区域中的目标数据。

本申请实施例的第二个方面，提供了基于高位视频的三维目标检测系统，所述系统包括：

信息获取模块，所述信息获取模块用于基于位置点位集、角度点位集布设高位视频摄像装置，确定固定完成的多个高位视频摄像装置信息；

图像采集模块，所述图像采集模块用于根据所述多个高位视频摄像装置信息对目标区域进行图像采集，生成区域图像数据集；

网络构建模块，所述网络构建模块用于构建三维目标检测网络；

检测模块，所述检测模块用于对所述区域图像数据集进行预处理，将预处理数据集输入至所述三维目标检测网络进行目标检测，生成识别目标信息；

分析模块，所述分析模块用于基于所述识别目标信息进行三维重建输出目标三维信息，通过所述目标三维信息进行特征分析，根据特征分析结果锁定目标区域中的目标数据。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

基于位置点位集、角度点位集布设高位视频摄像装置，确定固定完成的多个高位视频摄像装置信息。接着，根据这些高位视频摄像装置的信息对目标区域进行图像采集，生成区域图像数据集。为了实现目标检测，构建了一个三维目标检测网络。在目标检测之前，对区域图像数据集进行预处理，以便将预处理数据集输入至所述三维目标检测网络中进行目标检测。通过运行该网络，识别了目标区域中各种类型的目标，并生成了相应的识别目标信息。接下来，利用识别目标信息进行三维重建，从而输出目标三维信息。通过目标三维信息，进行特征分析，并根据分析结果锁定目标区域中的目标数据。解决了现有技术中采集的图像对道路场景感知受限的技术问题，达到了提高感知范围的技术效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见的，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的基于高位视频的三维目标检测方法流程示意图；

图2为本申请实施例提供的基于高位视频的三维目标检测系统结构示意图。

附图标记说明：信息获取模块11，图像采集模块12，网络构建模块13，检测模块14，分析模块15。

具体实施方式

本申请实施例通过提供基于高位视频的三维目标检测方法及系统，解决了现有技术中采集的图像对道路场景感知受限的技术问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或模块。

实施例一

如图1所示，本申请实施例提供了基于高位视频的三维目标检测方法，其中，方法包括：

高位视频摄像头通常安装在路侧5-6米高的杆上，用于拍摄路面场景，通过对摄像头的位置点位集和角度点位集进行确定后，可以布设多个高位视频摄像装置。通过这些装置的安装位置和角度信息，确定相应的高位视频摄像装置信息。高位视频摄像装置信息指摄像装置的具体参数，例如拍摄范围、视野角度和分辨率等。

进一步而言，方法包括：

采集目标区域内的地面基础数据；

调取大数据中符合所述地面基础数据的多个区域场景；

遍历所述多个区域场景进行高位视频摄像装置布设数据的标识，生成布设标识数据；

按照布设位置信息、布设角度信息分解所述布设标识数据，生成所述位置点位集、所述角度点位集。

具体而言，需要采集目标区域内的地面基础数据，包括地形、建筑物分布、道路网络等信息。接着，可以调取大数据中符合所述地面基础数据的多个区域场景。这些区域场景可以提供更广泛的数据支持，以便进行更全面的分析和比对。在获取了多个符合地面基础数据的区域场景后，需要遍历这些场景，对其中的高位视频摄像装置布设数据进行标识，生成布设标识数据，包括摄像装置的具体位置、角度、覆盖范围等信息。最后，按照布设位置信息和布设角度信息，可以将布设标识数据进行分解，从而生成位置点位集和角度点位集。这些点位集将作为布设高位视频摄像装置时的重要参考，从而确定最佳的摄像装置位置和角度，以实现对目标区域的有效监控和数据采集。

进一步而言，方法包括：

根据所述位置点位集遍历目标区域进行位置锁定，生成多个固定位置信息；

根据所述角度点位集遍历所述多个固定位置信息进行角度锁定，生成多个固定角度信息；

将所述多个固定位置信息、所述多个固定角度信息进行匹配，根据匹配结果对多个高位视频摄像装置进行固定，通过固定完成的多个高位视频摄像装置获取装置内参、装置外参；

根据所述装置内参、所述装置外参生成固定完成的所述多个高位视频摄像装置信息。

根据所述位置点位集，通过遍历目标区域进行位置锁定，并生成多个固定位置信息，这些位置信息将确定高位视频摄像装置的具体安装位置。接着，根据所述角度点位集，通过遍历多个固定位置信息进行角度锁定，生成多个固定角度信息，这些角度信息将确定高位视频摄像装置的拍摄角度和方向。然后，将多个固定位置信息和多个固定角度信息进行匹配。通过匹配结果，可以对多个高位视频摄像装置进行固定安装，确保它们的位置和角度符合预期。在完成固定安装后，可以获取装置内参(如摄像头参数、分辨率等)和装置外参(如相对位置、视角等)的信息。最后，根据所述装置内参和装置外参，可以生成固定完成的多个高位视频摄像装置信息，包括装置的位置、角度、参数设置等，为后续的监控和数据采集提供准确的基础。

高位视频摄像装置将能够覆盖整个目标区域，并捕捉到所需的图像信息。基于多个高位视频摄像装置信息，可以对目标区域进行图像采集，以生成区域图像数据集。通过区域图像数据集，可以实现对目标区域的全方位监控和数据采集。这些图像数据将包含丰富的环境信息，为后续的分析和应用提供重要的支持。

构建三维目标检测网络；

构建一个具备较高精度的三维目标检测网络，用于实现对目标区域内的物体进行快速准确的检测和识别。

进一步而言，构建三维目标检测网络，方法包括：

将所述区域图像数据集作为先验知识构建图像骨干模块，获取目标区域的图像特征集；

通过所述图像特征集的空间关系、上下文信息构建视觉特征编码模块；

通过所述视觉特征编码模块获取编码特征集；

利用目标区域内地面几何信息的网络结构对地面特征提取模块进行构建；

通过反卷积对所述编码特征集进行解码操作构建特征解码模块，获取特征图集合；

基于所述特征图集合进行三维目标的检测，构建三维检测模块；

根据所述图像骨干模块、所述视觉特征编码模块、所述地面特征提取模块、所述特征解码模块、所述三维检测模块进行连接，获取所述三维目标检测网络。

构建一个完整的三维目标检测网络，具体来说，利用区域图像数据集作为先验知识，构建图像骨干模块来获取目标区域的图像特征集，图像骨干模块的作用为进行图像的特征提取，以及生成不同尺度的特征。通过图像特征集的空间关系和上下文信息构建视觉特征编码模块，用于提取目标区域内物体的视觉特征。利用目标区域内地面几何信息的网络结构对地面特征提取模块进行构建，用于提取目标区域内地面的特征信息。通过反卷积对所述编码特征集进行解码操作构建特征解码模块，获取特征图集合。基于所述特征图集合进行三维目标的检测，构建三维检测模块。根据图像骨干模块、视觉特征编码模块、地面特征提取模块、特征解码模块、三维检测模块进行连接，获取三维目标检测网络。将各个模块串联起来，可以有效地提高三维目标检测的准确性和鲁棒性。

进一步而言，将所述区域图像数据集作为先验知识构建图像骨干模块，方法包括：

基于所述区域图像数据集进行图像的特征提取，生成多个尺寸的图像特征数据；

基于所述多个尺寸的图像特征数据进行多个卷积组合层的叠加运算，构建所述图像骨干模块。

基于所述区域图像数据集进行图像的特征提取，可以使用常见的卷积神经网络(CNN)模型，如ResNet、VGG、MobileNet等，在预训练的基础上对图像数据集进行特征提取，生成多个尺寸的图像特征数据，用于后续的特征提取和编码模块，输入图像尺寸为H*W*C，其中H、W分别表示图像的高度、宽度，C表示通道数，此时C为3，表示RGB三通道图像。接下来，基于多个尺寸的图像特征数据采用卷积层-归一化层-激活函数层这样的卷积组合方式，进行多个卷积组合层的叠加运算，在每个卷积组合运算中进行一次下采样，包括但不限于使用ResNet、VGG、MobileNet等骨干网络，下采样倍数为R，共包括五次下采样操作。所述归一化层，包括但不限于实例归一化层、自适应实例归一化层等；所述激活函数层包括但不限于ReLU、Leaky ReLU等非线性激活函数。

进一步而言，利用目标区域内地面几何信息的网络结构对地面特征提取模块进行构建，方法包括：

基于所述多个尺寸的图像特征数据进行尺寸统一构建多尺度特征融合单元；

基于所述地面几何信息的网络结构捕获多个空间范围的图像信息构建地面特征编码单元；

基于所述多尺度特征融合单元、所述地面特征编码单元构建所述地面特征提取模块。

基于多个尺寸的图像特征数据，利用反卷积操作或是双线性插值操作将不同尺度的特征进行特征图尺寸统一化，统一到中间尺度的特征图尺寸，从而构建出多尺度特征融合单元。多尺度特征融合单元，用于将来自不同尺度的特征信息进行融合，以获取更加全面和丰富的特征表示。基于地面几何信息的网络结构，设计一个地面特征编码单元，用于捕获多个空间范围的图像信息。地面特征编码单元利用自注意力层和前馈神经网络组成，作用为捕获图像中跨越不同空间范围的信息，从而增强视觉信息的表达能力。最后，基于多尺度特征融合单元和地面特征编码单元，构建地面特征提取模块。在地面特征提取模块中，将多尺度的图像特征信息与地面特征信息进行整合和融合，以获取更加全面和具体的地面特征表示。

进一步而言，通过反卷积对所述编码特征集进行解码操作构建特征解码模块，获取特征图集合，方法包括：

将所述视觉特征编码模块的输出端与所述地面特征提取模块的输出端进行合并，生成并行输出端；

将所述并行输出端与所述特征解码模块的输入端进行连接；

通过反卷积将所述编码特征集输入至所述特征解码模块进行解码操作，获取解码特征图集；

对所述解码特征图集进行权重训练，根据权重训练结果确定所述特征图集合。

将视觉特征编码模块和地面特征提取模块生成的特征图进行拼接或融合，以创建一个并行的输出端，其中包含来自两个模块的特征信息。将上述生成的并行输出端连接到特征解码模块的输入端，以便将合并后的特征传递给特征解码模块进行解码处理。通过反卷积操作将编码特征集输入至特征解码模块进行解码操作，解码操作旨在将编码后的特征图重新映射为与原始输入图像相同大小的特征图，从而获取解码特征图集。对解码特征图集进行权重训练，具体来说，通过监督学习或其他优化方法，调整解码特征图的权重参数，以使解码后的特征图更好地匹配原始输入图像，并符合特定的任务需求。根据权重训练的结果，确定最终的特征图集合。

对区域图像数据集进行预处理，包括去噪、增强对比度等操作，以提高后续目标检测的准确性，将经过预处理的数据集输入到三维目标检测网络中。在三维目标检测网络中，使用计算机视觉算法，如深度学习模型，对预处理后的视频进行目标检测。这些算法能够识别出视频中的目标物体，如行人、车辆等，并标记出它们的位置。

利用目标检测网络输出的目标信息，使用特定的算法和技术，如立体视觉、深度学习等，进行三维重建。这一过程可以获取目标物体的三维形状、尺寸等信息。基于重建后的目标三维信息，进行特征分析，这包括提取目标的各种特征，如形状、颜色、纹理等。通过特征分析的结果，根据特定的特征或特征组合来锁定目标区域中的目标数据。

综上所述，本申请实施例至少具有如下技术效果：

实施例二

基于与前述实施例中基于高位视频的三维目标检测方法相同的发明构思，如图2所示，本申请提供了基于高位视频的三维目标检测系统，本申请实施例中的系统与方法实施例基于同样的发明构思。其中，系统包括：

信息获取模块11，所述信息获取模块11用于基于位置点位集、角度点位集布设高位视频摄像装置，确定固定完成的多个高位视频摄像装置信息；

图像采集模块12，所述图像采集模块12用于根据所述多个高位视频摄像装置信息对目标区域进行图像采集，生成区域图像数据集；

网络构建模块13，所述网络构建模块13用于构建三维目标检测网络；

检测模块14，所述检测模块14用于对所述区域图像数据集进行预处理，将预处理数据集输入至所述三维目标检测网络进行目标检测，生成识别目标信息；

分析模块15，所述分析模块15用于基于所述识别目标信息进行三维重建输出目标三维信息，通过所述目标三维信息进行特征分析，根据特征分析结果锁定目标区域中的目标数据。

进一步的，所述信息获取模块11用于执行如下方法：

采集目标区域内的地面基础数据；

调取大数据中符合所述地面基础数据的多个区域场景；

进一步的，所述信息获取模块11用于执行如下方法：

进一步的，所述网络构建模块13用于执行如下方法：

通过所述视觉特征编码模块获取编码特征集；

进一步的，所述网络构建模块13用于执行如下方法：

将所述并行输出端与所述特征解码模块的输入端进行连接；

需要说明的是，上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本说明书和附图仅仅是本申请的示例性说明，且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样，倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内，则本申请意图包括这些改动和变型在内。

Claims

1.基于高位视频的三维目标检测方法，其特征在于，所述方法包括：

构建三维目标检测网络；

2.如权利要求1所述的方法，其特征在于，方法包括：

采集目标区域内的地面基础数据；

调取大数据中符合所述地面基础数据的多个区域场景；

3.如权利要求1所述的方法，其特征在于，方法包括：

4.如权利要求1所述的方法，其特征在于，构建三维目标检测网络，方法包括：

通过所述视觉特征编码模块获取编码特征集；

5.如权利要求4所述的方法，其特征在于，将所述区域图像数据集作为先验知识构建图像骨干模块，方法包括：

6.如权利要求5所述的方法，其特征在于，利用目标区域内地面几何信息的网络结构对地面特征提取模块进行构建，方法包括：

7.如权利要求4所述的方法，其特征在于，通过反卷积对所述编码特征集进行解码操作构建特征解码模块，获取特征图集合，方法包括：

将所述并行输出端与所述特征解码模块的输入端进行连接；

8.基于高位视频的三维目标检测系统，其特征在于，用于实施权利要求1-7任意一项所述的基于高位视频的三维目标检测方法，所述系统包括：