CN116630394B

CN116630394B - 一种三维建模约束的多模态目标物体姿态估计方法及系统

Info

Publication number: CN116630394B
Application number: CN202310911560.1A
Authority: CN
Inventors: 王海滨; 李卫民; 徐熠; 穆新星; 王强
Original assignee: Shandong Zhongke Advanced Technology Co ltd
Current assignee: Shandong Zhongke Advanced Technology Co ltd
Priority date: 2023-07-25
Filing date: 2023-07-25
Publication date: 2023-10-20
Anticipated expiration: 2043-07-25
Also published as: CN116630394A

Abstract

本发明涉及多模态物体姿态估计领域，提供了一种三维建模约束的多模态目标物体姿态估计方法及系统。该方法包括，获取目标物体二维图像和目标物体激光雷达点云数据；提取目标物体二维图像的图像语义信息和图像深度信息，融合图像语义信息和图像深度信息进行三维化表达，得到三维语义特征；提取目标物体激光雷达点云数据的点云特征；将三维语义特征和点云特征进行融合，得到多模态融合特征；对多模态融合特征进行关键点检测处理，得到三维关键点；将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态。本发明能够有效识别目标物体姿态，根据其姿态帮助完成路径规划或者视觉定位等后续工作，实现姿态估计的高精度工作需求。

Description

一种三维建模约束的多模态目标物体姿态估计方法及系统

技术领域

本发明涉及多模态物体姿态估计领域，尤其涉及一种三维建模约束的多模态目标物体姿态估计方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

姿态识别技术是融合传感、控制、信息、图像识别等为一体的多学科交叉融合，可用于物体抓取、自动驾驶等领域。机场、物流车间等环境下人流密度庞大，空置手推车、待回收组件等目标物体散落在不固定的位置，无法得到有效的信息采集和姿态估计，进而影响计算机视觉应用场景中后续的建图定位精度与路径规划等拓展任务。对于抓取任务或者导航任务而言，首要任务就是判断目标的姿态信息，为后续的路径规划作为基础，因此良好的姿态估计算法在计算机视觉任务当中是至关重要的。申请号为2022107599367的中国专利，公开了一种基于Transformer的6D姿态估计方法。该专利中采用Transformer架构对RGB图像中物体进行三维关键点提取，并采用三维关键点形态进行pnp匹配来计算物体的6D姿态。但是该专利中只使用了单一模态的传感数据，由于摄像头普遍存在一定的盲区，因此在巡检机器人等复杂应用场景下目标也会存在一定遮挡，而该专利的方法不能够对被遮挡区域进行有效的处理，因此该专利不能很好的适应复杂场景下的姿态估计。

申请号为2022105740350的中国专利，公开了一种基于多模态稠密融合网络的物体6D姿态估计方法，其采用点云数据与RGB图像数据融合的方式输出物体的平移矩阵与旋转矩阵来获取物体姿态。通过采用最远点采样，得到采样关键点，但是这种方法获取到的关键点个数少，几何约束力更弱，对点云数据的质量依赖性也更强，当点云数据受到物体遮挡、反射强度不足等因素造成的采集质量不足时，最远点采样的质量无法得到保障，后续计算的平移矩阵和旋转矩阵的精度也会受到影响，因此该专利在采样精度受限时无法获得高精度的姿态估计结果。

申请号为2021108966246的中国专利，公开了一种双向融合机制下基于多模态数据特征提取与机器人的位姿估计方法，其通过采用多帧图片数据和多周期点云数据进行场景理解与识别，意味着机器人对物体的观测需要一个较长时间的观测周期，观测周期全部完成之后才能够针对多图片以及多点云数据提取出数量为N的融合特征，并在观测过程中不断进行误差修正，带来更多的不确定性；如果观测周期时间长度受到限制，或观测中出现因遮挡、移动导致的个别异常状态，则最终的融合特征表达能力亦会存在局限性，而该专利的方法不能够对被遮挡区域进行有效的处理，因此该专利也不能很好的适应复杂场景计算机视觉任务中的姿态估计。

发明内容

为了解决上述背景技术中存在的技术问题，本发明提供一种三维建模约束的多模态目标物体姿态估计方法及系统，其可以在计算机视觉应用场景中发现目标物体后，结合高精度CAD建模，有效识别目标物体姿态，根据其姿态帮助完成路径规划或者视觉定位等后续工作，实现姿态估计的高精度工作需求。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供一种三维建模约束的多模态目标物体姿态估计方法。

一种三维建模约束的多模态目标物体姿态估计方法，包括：

获取目标物体二维图像和目标物体激光雷达点云数据；

提取目标物体二维图像的图像语义信息和图像深度信息，融合图像语义信息和图像深度信息进行三维化表达，得到三维语义特征；

提取目标物体激光雷达点云数据的点云特征；

将三维语义特征和点云特征进行融合，得到多模态融合特征；

对多模态融合特征进行关键点检测处理，得到三维关键点；

将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态。

进一步地，在获取目标物体二维图像之前包括：获取全局图像，对全局图像进行目标物体检测处理，截取出目标物体二维图像。

进一步地，在获取目标物体激光雷达点云数据之前包括：获取激光雷达点云数据，对激光雷达点云数据进行分割处理，得到目标物体激光雷达点云数据。

进一步地，所述提取目标物体二维图像的图像语义信息和图像深度信息，融合图像语义信息和图像深度信息进行三维化表达，得到三维语义特征的过程包括：基于目标物体二维图像，采用全卷积网络和深度编码器进行语义特征以及深度信息的提取，将提取的图像语义信息与图像深度信息融合进行三维化表达，结合相机标定外参数，得到三维语义特征。

进一步地，所述对多模态融合特征进行关键点检测处理，得到三维关键点的过程包括：

选取多模态融合特征中的空间维度点；

计算该空间维度点的特征与局部邻域的平均特征之间的差值，得到该空间维度点的显著性分数；

选取显著性分数最大值，记为k；

将与该空间维度点具有相同空间维度的其他空间维度点在k维度上进行比较；

若某个空间维度点的第k个特征大于邻域内其他点的第k个特征，则该点即为三维关键点。

进一步地，所述将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态的过程包括：将三维关键点标注的序号和位置与目标物体的CAD模型上的关键点序号和位置进行匹配，采用Kabsch算法迭代计算两组关键点坐标的变换参数，直至两者误差小于阈值，得到两者的旋转矩阵与平移矩阵，求解目标物体的姿态。

本发明的第二个方面提供一种三维建模约束的多模态目标物体姿态估计系统。

一种三维建模约束的多模态目标物体姿态估计系统，包括：

数据获取模块，其被配置为：获取目标物体二维图像和目标物体激光雷达点云数据；

图像处理模块，其被配置为：提取目标物体二维图像的图像语义信息和图像深度信息，融合图像语义信息和图像深度信息进行三维化表达，得到三维语义特征；

激光雷达处理模块，其被配置为：提取目标物体激光雷达点云数据的点云特征；

特征融合模块，其被配置为：将三维语义特征和点云特征进行融合，得到多模态融合特征；

三维关键点检测模块，其被配置为：对多模态融合特征进行关键点检测处理，得到三维关键点；

姿态估计模块，其被配置为：将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态。

进一步地，应用于虚拟现实交互系统、物流仓储系统或定位导航系统。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。

与现有技术相比，本发明的有益效果是：

本发明能够充分利用物体的RGB信息、激光雷达信息和CAD模型约束的物体几何信息，实现了实时、自动、全方位对目标物体姿态信息的检测，为后续复杂场景下计算机视觉应用进行下一步工作打下了基础，对大场景下噪声、遮挡、低光照以及激光雷达视野受限等复杂环境具有较强的适应性。

本发明采用单张图片、单个点云文件，先进行单一模态特征提取然后进行整体融合，不需要对物体进行长周期观测，保证系统在复杂场景下可用，且在后续过程中结合了CAD模型进行校正，精度并不亚于加长观测周期方法。

本发明采用图像、点云多模态数据进行姿态估计，其特征信息更为丰富，精度更为准确，输出的姿态为目标物体相对于算法系统内置坐标原点的姿态，便于后续复杂场景下计算机视觉的相关应用。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明示出的三维建模约束的多模态目标物体姿态估计方法的流程图；

图2是本发明示出的三维建模约束的多模态目标物体姿态估计方法的细节流程图；

图3是本发明示出的三维建模约束的多模态目标物体姿态估计系统的框架图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

需要注意的是，附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意，在有些作为备选的实现中，方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，或者它们有时也可以按照相反的顺序执行，这取决于所涉及的功能。同样应当注意的是，流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合，可以使用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以使用专用硬件与计算机指令的组合来实现。

术语解释：

全卷积网络(fully convolutional network，FCN)采用卷积神经网络实现了从图像像素到像素类别的变换。

特征金字塔模型（Feature Pyramid Network，FPN）是用于检测不同尺度的对象的识别系统中的基本组件。

相机标定外参是在世界坐标系中的参数，比如相机的位置、旋转方向等。

PointPillars是一个一阶段（one-stage）端到端（end-to-end）的点云物体检测网络。

点云配准算法（kabsch），用于求解旋转矩阵和平移矩阵。

实施例一

如图1所示，本实施例提供了一种三维建模约束的多模态目标物体姿态估计方法，该方法包括以下步骤：

获取RGB图像和激光雷达点云数据；

采用检测算法在RGB图像上将目标物体的二维图像截取出来，同时在激光雷达点云数据当中将属于当前目标物体的点云部分分割出来。图像数据和点云数据分割完成之后分别进入深度学习算法模块进行处理。

其中，图像数据经过全卷积网络和深度编码器进行语义特征以及深度信息的提取，提取完成之后图像语义信息与图像深度信息融合进行三维化表达，得到三维语义特征作为输出；而激光雷达点云数据通过Pointpillar网络进行点云特征提取，提取后的点云特征与图像三维语义特征通过特征融合模块作为多模态融合特征进行输出。

RGB图像与激光雷达点云数据的特征提取模块采用网络开源预训练模型进行构建，预训练网络在大型通用数据集上进行过训练并取得良好效果。由于原始数据集足够丰富，因此通过预训练模型学到的特征的空间层次结构可以有效地作为通用模型在目标物体姿态估计这一特定任务上作为语义特征使用。而在三维关键点检测阶段，采用自主收集的目标物体数据进行人工标注关键点，并利用人工标注数据进行有监督深度学习。有监督深度学习中利用已经使用Pytorch框架对算法模型进行搭建，根据人工标注数据调整模型参数来完成模型训练，得到训练好的模型参数后可对目标物体进行三维关键点序号、位置的输出并用于后续的姿态估计。

在原始的融合特征上通过多个多层感知机，一部分感知机经过计算之后的输出作为融合特征的语义通道特征，另一部分感知机的计算输出作为融合特征的空间维度特征。如果特征数值在语义通道上和空间维度都是最大值的点，则作为特征点进行输出，同时根据空间维度的位置赋予特征点编号。具体来说，对于得到的融合特征取空间维度点x_i，通过计算当前点x_i的特征与局部邻域的平均特征之间的差值来得到当前点x_i的显著性分数，并找到显著性分数的最大值，记其索引为k；接着和点x_i的相同空间维度的其他点x_j∈Nx_i的特征在第k维上进行比较，如果第i个点x_i的第k个特征F_i,k大于邻域内其它点的第k个特征F_j,k，则表示这个点是关键点，然后通过编码器在空间维度上计算其关键点编号。显著性分数的计算公式为：

其中，代表第i个点在k通道的特征，N代表邻域内个点的总数。

模型训练中使用如下损失函数来根据有监督标注数据进行参数的训练：

其中，代表真实关键点的位置，/>代表预测关键点的三维位置，n为预设的关键点个数。

三维关键点模型训练完成后，根据关键点标注的序号与位置，与目标物体的CAD模型进行匹配，计算出二者的旋转矩阵R与平移矩阵T，进而得到目标物体相对于算法系统承载装置的姿态。在进行关键点匹配时设置目标物体CAD模型位置为算法系统承载装置坐标原点的位置，并提取出CAD模型上的关键点坐标位置，采用Kabsch算法迭代计算两组关键点坐标的变换参数，直至二者误差小于阈值。同时由于部分计算机视觉任务在应用场景下不存在俯仰与翻滚等角度信息，在进行计算时可增加此方向的约束来提高姿态估计准确度。

将姿态估计算法得到的目标物体姿态传输给算法系统，算法系统会根据当前任务需求判断出后续所需要的定位、规划等信息，并控制承载装置进行抓取、跟踪等操作控制。

实施例二

本实施例提供了一种三维建模约束的多模态目标物体姿态估计系统。

如图3所示，本实施例提出的三维建模约束的多模态目标物体姿态估计系统，应用于复杂场景下的计算机视觉任务，以使算法系统在任务执行过程中，通过搭载的相机和激光雷达来检测目标物体，并结合目标物体的CAD模型来估计目标物体的姿态信息。比如，应用于移动机器人，以使移动机器人在搜索巡航过程中，通过搭载的相机和激光雷达来搜索散落的待抓取物体（如空置手推车、废弃预制件、待回收零件等）。

具体地，本实施所述的多模态物体姿态估计系统包括：数据采集模块、图像处理模块、激光雷达处理模块、特征融合模块、三维关键点检测模块和姿态估计模块。

其中，数据采集模块包括相机和激光雷达，其中相机用于获取目标物体的二维图像，激光雷达用于获取目标物体的激光雷达点云数据流。

图像处理模块，用于通过基于全卷积网络和特征金字塔模型的图像编码器进行图像语义特征的提取，得到图像的二维视图特征，将这一特征输入深度编码器，结合相机标定外参得到目标物体RGB图像的三维语义特征；

激光雷达处理模块，用于采用Pointpillars算法对目标物体的激光雷达数据流进行点云特征提取，提取出目标物体的点云特征；

如图2所示，特征融合模块，用于将所述三维语义特征与点云特征进行特征融合，得到多模态信息融合特征；

三维关键点检测模块，用于采用三维卷积网络处理多模态信息融合特征，得到三维关键点的空间位置和索引编号；

姿态估计模块，用于将三维关键点与CAD模型生成的关键点进行对应，通过Kabsch算法获得旋转变换矩阵R和平移变换矩阵T等姿态信息。

更为具体地，机器人从室内环境下的固定起点开始工作，通过事先实现的自动驾驶技术在室内按照预设路线进行自主巡航，巡航过程中进行目标物体搜索，搜索到的目标物体经过姿态估计算法之后，机器人根据姿态估计算法提供的信息进行目标定位以及路径规划，而后开展后续工作。

机器人搭载RGB相机，在巡航期间能够实现区域内视频、图像的采集，同时机器人搭载激光雷达传感器，与图像数据进行同步采集，并通过数据传输装置实时进行数据的发送与接收。机器人搭载的计算单元内置空置目标物体检测算法，根据相机数据和激光雷达传感器数据的融合进行目标物体检测、分割等初步感知工作。

初步感知工作完成之后机器人开始进行姿态估计算法流程，得到目标物体相对于机器人的位置与角度信息。姿态估计算法完成后根据预设定交互指令对机器人进行后续工作指令。

机器人进行实时感知时，通过相机图像与激光雷达点云对周边环境进行数据流获取，在数据流上使用训练好的目标物体检测算法对目标进行感知过程处理。感知过程处理当中检测算法会在RGB图像上将目标物体的二维图像截取出来，同时在激光雷达点云数据当中将属于当前目标物体的点云部分分割出来。图像数据和点云数据分割完成之后分别进入深度学习算法模块进行处理，其中图像数据经过全卷积网络和深度编码器进行语义特征以及深度信息的提取，提取完成之后图像语义信息与图像深度信息融合进行三维化表达，得到三维语义特征作为输出；而激光雷达点云数据通过Pointpillar网络进行点云特征提取，提取后的点云特征与图像三维语义特征通过特征融合模块作为多模态融合特征进行输出。

三维关键点检测模块采用三维卷积网络处理多模态信息融合特征，得到三维关键点的空间位置和索引编号；

姿态估计模块将三维关键点与CAD模型的关键点进行对应，通过Kabsch算法获得旋转变换矩阵R和平移变换矩阵T等姿态信息。

此外，可以采用关键点几何距离等距离信息替代CAD模型，完成匹配过程。

针对现有的姿态估计算法一般都面向固定平台系统，然后将数据传输到控制端，完成简易姿态检测识别，其大多数算法不能适配于低速自动驾驶应用场景，同时目标物体一般局限于简易零件与型材。本发明采用机器人搭载多种传感器进行姿态估计，按照任务分配的指令进行区域巡航，并在巡航过程中针对目标物体进行的姿态检测，提高了工作效率，工作的适应性。

针对现有的算法结构多采用单一模态进行数据采集，针对图像被遮挡的物体或者激光雷达死角处物体的识别率较低，准确度较差，应用范围受限。针对在这种情况，本发明针对已经进行过高精度建模的目标物体，提出了一种多模态姿态估计方案，可以针对视频中远处物体以及激光雷达被部分遮挡物体进行识别的网络训练模型，可以有效提高目标物体的姿态识别率，大大提高了系统运行效率。

针对现有的姿态检测算法采用单一的图像或激光雷达点云语义特征作为识别基础，在关键点检测上容易出现检测不准确或者检测失效的情况，需要更多的样本数据进行有监督矫正。本发明采用多种模态提取特征后进行融合，利用模态训练不同的模型，然后将它们融合以更好地对每个模态数据进行建模，训练过程更为简洁高效，所需要的原始数据更为精简。

针对现在的姿态估计算法为了扩大类别适应性，无法加入特定类别的几何信息进行约束，在适配多种类别的前提下不易保障姿态识别的高精度。本发明针对室内场景的特定目标物体，增加了几何信息约束作为参照，提升了姿态识别的准确度和鲁棒性。

实施例三

如图3所示，本实施例提出的三维建模约束的多模态目标物体姿态估计系统，应用于虚拟现实交互系统，以使虚拟现实交互系统在使用穿戴式设备对周边场景进行交互时，通过搭载的相机和激光雷达来感知周边的真实环境交互物体，并结合真实环境交互物体的CAD模型来估计其姿态信息。

其中，数据采集模块包括相机和激光雷达，其中相机用于获取真实环境交互物体的二维图像，激光雷达用于获取真实环境交互物体的激光雷达点云数据流。

图像处理模块，用于通过基于全卷积网络和特征金字塔模型的图像编码器进行图像语义特征的提取，得到图像的二维视图特征，将这一特征输入深度编码器，结合相机标定外参得到真实环境交互物体的RGB图像的三维语义特征；

激光雷达处理模块，用于采用Pointpillars算法对真实环境交互物体的激光雷达数据流进行点云特征提取，提取出真实环境交互物体的点云特征；

特征融合模块，用于将所述三维语义特征与点云特征进行特征融合，得到多模态信息融合特征；

更为具体地，使用背负式设备或者头戴式设备进行虚拟现实场景构建时，激光雷达和相机同步感知周边的真实环境交互物体，并在检测到指示物体之后开始进行物体识别，识别出真实环境交互物体的具体类别之后从内部数据库中调用该类别物体的CAD模型，开始进行多模态姿态估计，姿态估计计算完成之后输出真实环境交互物体相对于虚拟现实设备的姿态，并投影在虚拟现实场景当中，虚拟现实设备使用者可以实时观测到真实环境交互物体并根据场景任务进行实时互动，如VR游戏道具领取等。

虚拟现实设备搭载RGB相机，在使用期间能够实现区域内视频、图像的采集，同时虚拟现实设备搭载激光雷达传感器，与图像数据进行同步采集，并通过数据传输装置实时进行数据的发送与接收。虚拟现实设备搭载的计算单元内置真实环境交互物体的检测与识别算法，根据相机数据和激光雷达传感器数据的融合进行真实环境交互物体的物体检测、物体类别判断等初步感知工作。

初步感知工作完成之后虚拟现实设备开始进行姿态估计算法流程，得到真实环境交互物体相对于虚拟现实设备的位置与角度信息，并将包含有物体姿态、物体类别、物体建模的真实环境交互物体综合信息投影到虚拟现实场景当中，而后虚拟现实设备使用者可以根据虚拟现实重建结果进行场景互动。

实施例四

如图3所示，本实施例提出的三维建模约束的多模态目标物体姿态估计系统，应用于移动机器人室内场景高精度定位导航，如物流仓库、工业车间等场景内的定位导航工作。通过添加室内路标物体，以使移动机器人在室内进行实时建图定位的过程中，帮助移动机器人来优化自身位姿信息，提升后续的室内导航精度。

其中，数据采集模块包括相机和激光雷达，其中相机用于获取室内路标物体的二维图像，激光雷达用于获取室内路标物体的激光雷达点云数据流。

图像处理模块，用于通过基于全卷积网络和特征金字塔模型的图像编码器进行图像语义特征的提取，得到图像的二维视图特征，将这一特征输入深度编码器，结合相机标定外参得到室内路标物体的RGB图像的三维语义特征；

激光雷达处理模块，用于采用Pointpillars算法对室内路标物体的激光雷达数据流进行点云特征提取，提取出室内路标物体的点云特征；

更为具体地，移动机器人在室内场景进行导航工作时，可以人为的在室内环境中使用制式路标进行导航辅助。移动机器人一边进行环境地图匹配与自身定位工作，一边使用激光雷达和RGB相机进行制式路标检测，检测到制式路标之后开始进入制式路标的姿态估计工作，并将制式路标的估计结果输出到现有的建图定位框架下。室内场景中移动机器人在使用时，可以固定制式路标的位置与角度，这样制式路标的姿态可以作为已知的真实信息，而后得到的移动机器人计算出来的制式路标姿态可以作为待优化信息，计算待优化信息与真实信息之间的误差即可优化移动机器人在室内环境下的姿态，从而减小定位误差，实现高精度移动机器人定位和后续的导航工作。

移动机器人搭载RGB相机，在使用期间能够实现区域内视频、图像的采集，同时移动机器人搭载激光雷达传感器，与图像数据进行同步采集，并通过数据传输装置实时进行数据的发送与接收。移动机器人搭载的计算单元内置制式路标的检测算法，根据相机数据和激光雷达传感器数据的融合进行制式路标的物体检测、点云分割等初步感知工作。

初步感知工作完成之后移动机器人开始进行姿态估计算法流程，得到制式路标相对于移动机器人底盘的位置与角度信息，并将前期放置制式路标时预设的角度、位置信息作为真实值输入到优化算法系统当中，建立起移动机器人自位姿、移动机器人对制式路标的姿态估计值、制式路标姿态真实值的误差方程，优化结果小于阈值之后可以输出优化之后的移动机器人自位姿，这一自位姿作为高精度自定位结果，参与后续的导航系统计算。

实施例五

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。

实施例六

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（RandomAccessMemory，RAM）等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种三维建模约束的多模态目标物体姿态估计方法，其特征在于，包括：

获取目标物体二维图像和目标物体激光雷达点云数据；

提取目标物体激光雷达点云数据的点云特征；

对多模态融合特征进行关键点检测处理，得到三维关键点，过程包括：选取多模态融合特征中的空间维度点；计算该空间维度点的特征与局部邻域的平均特征之间的差值，得到该空间维度点的显著性分数；选取显著性分数最大值，记为k；将与该空间维度点具有相同空间维度的其他空间维度点在k维度上进行比较；若某个空间维度点的第k个特征大于邻域内其他点的第k个特征，则该点即为三维关键点；

将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态，过程包括：将三维关键点标注的序号和位置与目标物体的CAD模型上的关键点序号和位置进行匹配，采用Kabsch算法迭代计算两组关键点坐标的变换参数，直至两者误差小于阈值，得到两者的旋转矩阵与平移矩阵，求解目标物体的姿态。

2.根据权利要求1所述的三维建模约束的多模态目标物体姿态估计方法，其特征在于，在获取目标物体二维图像之前包括：获取全局图像，对全局图像进行目标物体检测处理，截取出目标物体二维图像。

3.根据权利要求1所述的三维建模约束的多模态目标物体姿态估计方法，其特征在于，在获取目标物体激光雷达点云数据之前包括：获取激光雷达点云数据，对激光雷达点云数据进行分割处理，得到目标物体激光雷达点云数据。

4.根据权利要求1所述的三维建模约束的多模态目标物体姿态估计方法，其特征在于，所述提取目标物体二维图像的图像语义信息和图像深度信息，融合图像语义信息和图像深度信息进行三维化表达，得到三维语义特征的过程包括：基于目标物体二维图像，采用全卷积网络和深度编码器进行语义特征以及深度信息的提取，将提取的图像语义信息与图像深度信息融合进行三维化表达，结合相机标定外参数，得到三维语义特征。

5.一种三维建模约束的多模态目标物体姿态估计系统，其特征在于，应用于复杂场景下计算机视觉任务，包括：

三维关键点检测模块，其被配置为：对多模态融合特征进行关键点检测处理，得到三维关键点，过程包括：

选取多模态融合特征中的空间维度点；计算该空间维度点的特征与局部邻域的平均特征之间的差值，得到该空间维度点的显著性分数；选取显著性分数最大值，记为k；将与该空间维度点具有相同空间维度的其他空间维度点在k维度上进行比较；若某个空间维度点的第k个特征大于邻域内其他点的第k个特征，则该点即为三维关键点；姿态估计模块，其被配置为：将三维关键点与目标物体CAD模型进行匹配，求解目标物体的姿态，过程包括：将三维关键点标注的序号和位置与目标物体的CAD模型上的关键点序号和位置进行匹配，采用Kabsch算法迭代计算两组关键点坐标的变换参数，直至两者误差小于阈值，得到两者的旋转矩阵与平移矩阵，求解目标物体的姿态。

6.根据权利要求5所述的三维建模约束的多模态目标物体姿态估计系统，其特征在于，应用于虚拟现实交互系统、物流仓储系统或定位导航系统。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-4中任一项所述的三维建模约束的多模态目标物体姿态估计方法中的步骤。