WO2024012333A1

WO2024012333A1 - 位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品

Info

Publication number: WO2024012333A1
Application number: PCT/CN2023/105934
Authority: WO
Inventors: 周晓巍; 林浩通; 彭思达
Original assignee: 上海商汤智能科技有限公司
Priority date: 2022-07-12
Filing date: 2023-07-05
Publication date: 2024-01-18
Also published as: CN115131437A

Abstract

本公开公开了一种位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读存储介质和计算机程序产品，其中，位姿估计模型的训练方法，包括：获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿；基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。

Description

位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品

相关申请的交叉引用

本公开实施例基于申请号为202210823003.X、申请日为2022年07月12日、申请名称为“位姿估计方法及相关模型的训练方法、装置、设备、介质”的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及但不限于人工智能技术领域，特别是涉及一种位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品。

背景技术

随着科技的发展，可以使用相机对需要定位的对象拍摄图像，然后利用网络模型对拍摄得到的图像进行处理，得到该对象的位姿。

发明内容

本公开实施例至少提供一种位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品。

本公开实施例提供了一种位姿估计模型的训练方法，包括：获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿；基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。

根据本公开实施例的位姿估计模型的训练方法，利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿之后，再利用样本深度图像对样本初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了样本彩色图像中颜色、纹理、轮廓等特征，又利用了样本深度图像中的深度特征，使得优化后的待定位对象的优化位姿更为准确。并且，利用优化位姿和样本位姿之间的差异，调整位姿估计模型中的网络参数，无需对样本彩色图像进行标注，减少了标注工作量，提高了对位姿估计模型的训练效率。

本公开实施例还提供了一种位姿估计方法，包括：获取包含待定位对象的目标图像，目标图像包括目标彩色图像和目标彩色图像对应的目标深度图像；利用位姿估计模型对目标彩色图像进行处理，得到待定位对象的目标初始位姿；基于目标深度图像中待定位对象的深度信息，对目标初始位姿进行优化，得到待定位对象的目标位姿；其中，图像检测模型是利用上述位姿估计模型的训练方法训练得到的。

本公开实施例还提供了一种位姿估计模型的训练装置，包括：样本图像获取部分，被配置为获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；样本位姿估计部分，被配置为利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿；样本位姿优化部分，被配置为基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；参数调整部分，被配置为基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。

本公开实施例还提供了一种位姿估计装置，包括：目标图像获取部分，被配置为获取包含待定位对象的目标图像，目标图像包括目标彩色图像和目标彩色图像对应的目标深度图像；目标位姿估计部分，被配置为利用位姿估计模型对目标彩色图像进行处理，得到待定位对象的目标初始位姿；目标位姿优化部分，被配置为基于目标深度图像中待定位对象的深度信息，对目标初始位姿进行优化，得到待定位对象的目标位姿；其中，图像检测模型是利用上述位姿估计模型的训练装置训练得到的。

本公开实施例还提供了一种电子设备，包括相互耦接的存储器和处理器，处理器被配置为执行存储器中存储的程序指令，以实现上述位姿估计模型的训练方法，或实现上述图像检测方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述位姿估计模型的训练方法，或实现上述图像检测方法。

本公开实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序被计算机读取并执行时，实现上述方法中的部分或全部步骤。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开实施例。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例提供的一种位姿估计模型的训练方法的流程示意图；

图2是图1所示的流程示意图中的步骤S13的子流程示意图；

图3是本公开实施例提供的一种位姿估计模型的训练方法的流程示意图；

图4是本公开实施例提供的一种位姿估计方法的流程示意图；

图5是本公开实施例提供的一种位姿估计模型的训练装置的组成结构示意图；

图6是本公开实施例提供的一种位姿估计装置的组成结构示意图；

图7是本公开实施例提供的一种电子设备的框图；

图8为本公开实施例提供的一种计算机可读存储介质的框图。

具体实施方式

下面结合说明书附图，对本公开实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本公开实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

相关技术中，为了获得用于定位图像中的对象的位姿的网络模型，需要使用大量带有标注的标签的样本图像对网络模型进行训练，而对样本图像标注标签的过程需要耗费巨大的工作量和时间，导致整个网络模型训练过程用时较长、训练效率较低。

基于此，本公开实施例提供了一种位姿估计模型的训练方法，该训练方法的执行主体可以是位姿估计模型的训练装置，该位姿估计模型的训练装置可以是任意一种能够执行本公开实施例的方法的终端设备或服务器或其它处理设备，其中，终端设备可以为视觉定位设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该位姿估计模型的训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图1，图1是本公开实施例提供的位姿估计模型的训练方法的流程示意图，该方法可以包括步骤S11至步骤S14：

步骤S11，获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像。

其中，样本图像可以是真实图像，也可以是合成图像。一些应用场景中，样本图像可以包括部分真实图像以及部分合成图像。在样本图像为真实图像的情况下，获取包含待定位对象的样本图像的方式可以是由执行本公开实施例提供的位姿估计模型的训练方法的执行设备对待定位对象进行拍摄，或者，由其他设备对待定位对象进行拍摄之后，将拍摄得到的图像通过通信连接的方式传输至执行设备。一些实施例中，可以使用公开的用于进行位姿估计的图像数据集作为样本图像。

另外，样本深度图像中各像素点的像素值用于表示样本彩色图像中对应像素点的深度值。其中，该深度值可以是该像素点对应的被拍摄对象上的三维点与拍摄设备之间的距离。

步骤S12，利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿。

其中，该位姿估计模型可以是经过预训练的模型，也可以是未经过预训练的模型。位姿估计模型可以是残差网络(ResNet网络)，还可以是其他任意结构的网络。其中，可以由位姿估计模型直接输出待定位对象的样本初始位姿，还可以由位姿估计模型输出中间结果，然后由其他模型或网络等对该中间结果进行进一步处理，得到待定位对象的样本初始位姿。

其中，样本初始位姿可以是六自由度位姿，即，样本初始位姿包含待定位对象在相机坐标系下的位置和朝向。

步骤S13，基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿。

如上述，样本深度图像中各像素点的像素值用于表示样本彩色图像中对应像素点的深度值，其中，该深度值可以是该像素点对应的被拍摄对象上的三维点与拍摄设备之间的距离。这里，因为样本彩色图像为二维图像，仅能反映待定位对象的颜色、纹理等特征，而无法很好地反映待定位对象与拍摄设备之间的距离，导致由样本彩色图像得到的样本初始位姿可能不太准确，因此，通过结合样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，使得优化后的优化位姿能够反映与待定位对象相关的更多信息、更为准确。

步骤S14，基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。

在一些实现方式中，可以基于优化位姿与样本初始位姿之间的差异，确定损失，然后利用该损失调整位姿估计模型中的网络参数。

上述方案中，利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿之后，再利用样本深度图像对样本初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了样本彩色图像中颜色、纹理、轮廓等特征，又利用了样本深度图像中的深度特征，使得优化后的待定位对象的优化位姿更为准确。并且，使用优化位姿和样本初始位姿之间的差异，即可实现对调整位姿估计模型中的网络参数的优化，而无需对样本彩色图像的位姿进行标注，并利用样本彩色图像的标注位姿与样本初始位姿之间差异来调整位姿估计模型中的网络参数，从而减少了标注工作量，提高了位姿估计模型的训练效率。

一些公开实施例中，上述步骤S12可以包括以下步骤S121至步骤S123：

步骤S121，利用位姿估计模型对样本彩色图像进行目标检测，得到待定位对象的位置。示例性地，位姿估计模型中包含目标检测子网络，目标检测子网络被配置为对样本彩色图像进行目标检测，得到待定位对象在样本彩色图像中的位置。在一些实施例中，目标检测子网络与位姿估计模型也可以是相互独立的，即，先使用目标检测子网络对样本彩色图像进行目标检测，得到待定位对象的位置，然后，使用位姿估计模型基于目标检测子网络的检测结果对样本彩色图像进行处理。

步骤S122，基于待定位对象在样本彩色图像中的位置，对样本彩色图像进行裁剪，得到包含待定位对象的局部图像。示例性地，裁剪的方式可以是以待定位对象在样本彩色图像上所处的区域向外扩展预设的尺度后进行裁剪，将裁剪得到的包含待定位对象的部分图像作为该局部图像。

步骤S123，对局部图像进行处理，得到待定位对象的样本初始位姿。

示例性地，合成图像的背景和前景可能存在较大的差异，若直接对合成图像进行处理，合成图像中面积较大的背景部分可能会影响对待定位对象所在的前景部分的检测，导致估计的样本初始位姿的准确度较低。本公开实施例中，先通过目标检测子网络对样本彩色图像进行目标检测，得到待定位对象的位置，然后，对样本彩色图像进行裁剪，得到包含待定位对象的局部图像，最后，通过对局部图像进行处理得到待定位对象的样本初始位姿，这样，可以减少所处理的局部图像中的背景部分，从而降低合成图像中的背景对处理结果的干扰，提高样本初始位姿的估计准确度。

在一些公开实施例中，上述步骤S12还可以包括以下步骤S124至步骤S125：

步骤S124，利用位姿估计模型，确定待定位对象的至少一个三维关键点在样本彩色图像上的投影位置。如上述，可以对样本彩色图像进行裁剪得到包含待定位对象的局部图像，确定待定位对象的至少一个三维关键点在样本彩色图像上的投影位置可以是确定各三维关键点在该局部图像上的投影位置。其中，待定位对象的至少一个三维关键点可以是在待定位对象对应的预设三维模型上提取的。示例性地，至少一个三维关键点可以是通过最远点采样算法从预设三维模型上获取的三维点集。

步骤S125，基于各三维关键点在样本彩色图像上的投影位置以及目标相机的内参，确定待定位对象的样本初始位姿。其中，在确定各三维关键点在局部图像上的投影位置之后，结合目标相机的内参，可以通过解决PnP(Perspective-n-Point)问题的方式，确定待定位对象的样本初始位姿。示例性地，目标相机的内参可以包括焦距等参数。在一些实施例中，使用解决PnP问题的方式获取待定位对象的样本初始位姿的方式此处不做过多叙述。此外，目标相机可以是采集样本图像的相机，同上述拍摄设备。

在一些实现方式中，可以通过位姿估计模型确定待定位对象的三维关键点在样本彩色图像上的投影位置，然后，根据确定的三维关键点的投影位置以及目标相机的内部参数，得到待定位对象的样本初始位姿。

在一些实现方式中，上述步骤S124可以包括步骤S1241至步骤S1243：

步骤S1241，利用位姿估计模型，预测各对象像素点分别到每一投影位置的方向向量。

其中，对象像素点为样本彩色图像中属于待定位对象的像素点。如上述，位姿估计模型可以对样本彩色图像进行目标检测，得到待定位对象在样本彩色图像中的位置。其中，将属于待定位对象的像素点的语义标签设置为第一预设值(例如，第一预设值可以是1)，将不属于待定位对象的像素点的语义标签设置为第二预设值(例如，第二预设值可以0)，并且将语义标签为第一预设值的像素点作为对象像素点。

方向向量可以是二维向量，其中，一个维度是样本彩色图像的x轴方向上的向量(例如，样本彩色图像的横轴方向上的向量)，另一个维度可以是样本彩色图像的y轴方向上的向量(例如，样本彩色图像的纵轴方向上的向量)。

示例性地，对象像素点到投影位置的方向向量可参考公式(1)：

v_k(p)＝x_k-p (1)；

其中，v_k(p)表示对象像素点p到第k个投影位置的方向向量，x_k表示第k个投影位置的二维坐标，p表示像素点p的位置的二维坐标。

对于每一投影位置，从与该投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各方向向量对应的候选投影位置。示例性地，将各对象像素点的位置与对象像素点对应的方向向量求和，得到各对象像素点对应的候选投影位置。示例性地，若样本彩色图像中属于待定位对象的对象像素点有10个，预设数量为5，即可以从10个方向向量中选择5个方向向量，每一方向向量有对应的对象像素点，每一对象像素点与其对应的方向向量相加，即可得到该对象像素点对应的候选投影位置，即得到的候选投影位置为5个。

一些应用场景中，位姿估计模型的输入为至少一张样本彩色图像，输出结果为各像素点对应的语义标签以及各像素点对应的方向向量。其中，语义标签用于表示该像素点是否属于待定位对象。一些应用场景中，输入的若干张样本彩色图像中可以包括多种待定位对象，输出的各像素点对应的语义标签可以是该像素点属于哪种待定位对象的标签。示例性地，多种待定位对象可以包括杯子、桌子、凳子等。也即，根据本公开实施例提供的位姿估计模型的训练方法得到的位姿估计模型能够同时对多种待定位对象进行位姿估计，得到各待定位对象的目标位姿。

步骤S1242，基于方向向量与对应的对象像素点，确定对应的候选投影位置的方式可参考公式(2)：

h_k,i＝p+v_k(p) (2)；

其中，{h_k,i|i＝1,2,…,N}，其中，N是候选投影位置的数量，p表示对象像素点，v_k(p)表示对象像素点p到第k个投影位置的方向向量。

步骤S1243，基于各候选投影位置之间的位置关系，确定各候选投影位置的分数，将分数满足预设要求的候选投影位置，作为投影位置。

可选地，上述基于各候选投影位置之间的位置关系，确定各候选投影位置的分数的方式可以是：对于每一候选投影位置，确定该候选投影位置与其他候选投影位置之间的目标距离的数量，并将目标距离的数量作为当前候选投影位置的分数。其中，目标距离为小于或等于预设距离的距离。示例性地，将当前候选投影位置与其他候选投影位置作差，得到当前候选投影位置和其他候选投影位置对应的距离。其中，预设距离的大小可以在对位姿估计模型的训练过程中进行调整，以确定最终的预设距离。

示例性地，计算各候选投影位置的分数的方式可参考公式(3)：

w_k,i＝∑I(|h_k,i-p-v_k(p)|≤θ) (3)；

其中，w_k,i表示第i个候选投影位置的分；I是指示函数，满足条件为1，不满足条件则为0；θ为预设距离，例如θ可以取值为1。

其中，上述将分数满足预设要求的候选投影位置，作为投影位置的方式可以是：将最大分数对应的候选投影位置作为投影位置。其中，其他三维关键点对应的投影位置的确定方式可参考上述过程。

这样，通过确定各候选投影位置之间的距离，确定得到最终的投影位置，使确定的投影位置更为准确。

一些应用场景中，本公开实施例提供的位姿估计模型的训练方法还可包括对位姿估计模型的预训练步骤。

其中，预训练的步骤可以是：获取若干样本图像，该样本图像与上述步骤S11获取的样本图像可以相同，也可以不同。获取样本图像上各像素点的样本语义标签以及样本投影位置。确定基于位姿估计模型输出的语义标签与样本语义标签之间的第一损失，以及基于位姿估计模型输出的各对象像素点的方向向量确定投影位置，确定投影位置与样本投影位置之间的第二损失，基于第一损失和第二损失，调整位姿估计模型中的网络参数。

这里，在预训练中，将初始学习率可以设置为1e-3，每隔第一预定迭代次数之后，学习率减半。在预训练之后，学习率可以调整为5e-4，每隔第二预定迭代次数之后，学习率减半。可选地，第一预定迭代次数为第二预定迭代次数的两倍。

这样，本公开实施例中，首先，基于各对象像素点关于投影位置的方向向量确定至少一个候选投影位置，然后从至少一个候选投影位置中选出满足要求的候选投影位置，作为最终的投影位置，使得到的投影位置更为准确。

参见图2，图2为图1中所示的位姿估计模型的训练方法中的步骤S13的子流程示意图。如图2所述，上述步骤S13可以包括步骤S131至步骤S133：

步骤S131，基于样本初始位姿以及待定位对象对应的预设三维模型，确定关于待定位对象的渲染深度图。

其中，预设三维模型可以是利用绘图软件绘制得到的，或利用建模网络使用至少一张包含待定位对象的图像对待定位对象进行三维建模得到的。

其中，样本初始位姿可以认为是待定位对象对应的预设三维模型在相机坐标系下的位姿。上述基于样本初始位姿以及待定位对象对应的预设三维模型，确定关于待定位对象的渲染深度图的方式可以是基于样本初始位姿，将该预设三维模型投影到相机平面上，得到该渲染深度图。

步骤S132，利用渲染深度图和样本深度图像之间的差异，确定优化项。

其中，位姿估计模型的训练方法还可包括以下步骤：基于样本初始位姿以及预设三维模型，确定关于待定位对象的法线图。示例性地，预设三维模型可以是由至少一个平面(例如，三角形网格面)构成，每一平面在法线图中对应一个像素点的像素值，该像素值可以用于表示该平面的法线方向。

其中，利用渲染深度图和样本深度图像之间的差异，确定优化项的方式可以是：

分别对渲染深度图和样本深度图像进行反投影，得到渲染深度图对应的第一点云和样本深度图像对应的第二点云。其中，第一点云包括至少一个对象像素点对应的第一三维点，第二点云包括各对象像素点对应的第二三维点。如上述，对象像素点为样本彩色图像中属于待定位对象的像素点。在一些实施例中，使用待定位对象的样本初始位姿对该渲染深度图进行反投影，得到第一点云；使用待定位对象的样本初始位姿对该样本深度图像进行反投影，得到第二点云。

然后，对于每一对象像素点，确定对象像素点对应的偏差表征值。偏差表征值可以是残差。其中，对象像素点对应的偏差表征值为对象像素点对应的目标位姿差与对象像素点在法线图中对应的法线方向之间的乘积。其中，目标位姿差为对象像素点对应的第一三维点和对应的第二三维点之间的位姿差。

其中，对于对象像素点p，确定其偏差表征值L(p)的方式可以参考公式(4)：

L(p)＝||(π^-1(D^r(p))-π^-1(D(p)))N^r(p)||₂ (4)；

其中，π^-1是反投影函数，D^r(p)表示对象像素点p在渲染深度图中的深度值，D(p)表示对象像素点p在样本深度图中的深度值，N^r(p)表示对象像素点p在法线图中对应的法线方向。π^-1(D^r(p))-π^-1(D(p))表示第一三维点和对应的第二三维点之间的位姿差。

对于对象像素点的偏差表征值，可以是从第二三维点到第一三维点的平面的最小距离，该平面是由第一三维点及其法线定义的。

接着，结合各对象像素点对应的偏差表征值，确定优化项。示例性地，将各偏差表征值之和、各偏差表征值的平均值或各偏差表征值中的最大值作为优化项。利用梯度下降法最小化这些残差项以得到期望的优化位姿。一些应用场景中，为避免优化结果收敛到局部最小值，可以通过扰动样本初始位姿生成一组假设的样本初始位姿。然后，对这些姿态进行优化，得到更准确的优化位姿。

步骤S133，调整样本初始位姿，以使优化项满足预设要求，并将调整后的样本初始位姿作为优化位姿。

在一些实现方式中，预设要求可以是优化项最小化。

在本公开的实施例中，基于样本初始位姿以及待定位对象对应的预设三维模型，确定关于待定位对象的渲染深度图，然后基于待定位对象的渲染深度图和样本深度图像之间的差异，构建各对象像素点对应的优化项，利用优化项对样本初始位姿进行调整，使得调整后的样本初始位姿更为准确。

另外，通过将待定位对象的样本初始位姿反投影到渲染深度图和样本深度图像，分别得到第一点云和第二点云，以及基于第一点云中的三维点与第二点云中的三维点之间的差异，结合各点的法线方向，得到对象像素点对应的偏差表征值，使得确定的偏差表征值更为准确。

一些公开实施例中，在步骤S13之后、步骤S14之前，还包括以下步骤：

判断优化位姿是否为预设错误估计位姿，响应于优化位姿不为预设错误估计位姿，执行基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数的步骤。

在一些实施例中，响应于优化位姿为预设错误估计位姿，将该优化位姿丢弃，并且不执行基于该优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数的步骤。

通过在优化位姿不为预设错误估计位姿的情况下，使用该优化位姿与样本初始位姿之间的差异调整位姿估计模型中的网络参数，可以减少错误估计对位姿估计模型的扰乱，提高最终获得的位姿估计模型的准确性。

其中，判断优化位姿是否为预设错误估计位姿的方式可以是：

首先，获取各对象像素点对应的偏差表征值之间的集中趋势表征值。如上述，对象像素点为样本彩色图像中属于待定位对象的像素点，对象像素点对应的偏差表征值为对象像素点对应的目标位姿差与对象像素点对应的法线方向之间的乘积，目标位姿差为对象像素点对应的第一三维点和第二三维点之间的位姿差，其中，第一三维点为待定位对象的渲染深度图对应的第一点云中的三维点，第二三维点为待定位对象的样本深度图像对应的第二点云中的三维点。第一点云由渲染深度图经过反投影得到，第二点云由样本深度图像经过反投影得到。

在一些实施例中，集中趋势表征值为各对象像素点对应的偏差表征值的平均值。

然后，判断集中趋势表征值是否小于或等于预设尺寸。其中，预设尺寸与待定位对象在物理世界下的尺寸相关。例如，预设尺寸可以是待定位对象长度的0.2倍。

最后，响应于集中趋势表征值小于或等于预设尺寸，确定优化位姿不为预设错误估计位姿；响应于集中趋势表征值大于预设尺寸，确定优化位姿为预设错误估计位姿。

通过在集中趋势表征值不大于预设尺寸的情况下，认为优化位姿不是预设错误估计位姿，能够基于待定位对象的物理尺寸对优化位姿进行过滤。

为更好地理解本公开实施例提供的位姿估计模型的训练方法，可参考图3，图3是本公开实施例提供的一种位姿估计模型的训练方法的流程示意图。

如图3所示，给定一组包含待定位对象的未注释的样本图像数据，该样本图像数据包含至少一张样本彩色图像和该至少一张样本彩色图像对应的至少一张样本深度图像，首先，利用位姿估计模型预测至少一张样本彩色图像中的待定位对象的初始姿态；然后，利用至少一张样本深度图像中的深度信息对估计的样本初始姿态进行位姿优化，其中，位姿优化的方式可以是迭代优化；再次，对优化获得的位姿进行评估，即判断优化获得的位姿是否是预设错误估计，并基于评估结果对优化位姿进行过滤，丢弃错误的位姿估计；最后，确定保留的优化位姿与样本初始位姿之间的差异，并基于该差异调整位姿估计模型的网络参数。

在位姿估计过程中，本公开实施例提供的位姿估计模型可以以一张样本彩色图像估计待定位对象的6D姿态。

在一些实施例中，本公开实施例提供的位姿估计模型的训练方法可以应用于增强现实应用领域。

请参见图4，图4是本公开实施例提供的一种位姿估计方法的流程示意图。如图4所示，本公开实施例提供的位姿估计方法可以包括步骤S21至步骤S23：

步骤S21，获取包含待定位对象的目标图像，目标图像包括目标彩色图像和目标彩色图像对应的目标深度图像。

其中，包含待定位对象的目标图像可以是位姿估计方法的执行设备拍摄得到的，也可以是由与执行设备建立通信连接的其他设备拍摄得到的。

步骤S22，利用位姿估计模型对目标彩色图像进行处理，得到待定位对象的目标初始位姿。

其中，得到目标初始位姿的方式可参考上述位姿估计模型的训练方法实施例中获取样本初始位姿的方式。其中，位姿估计模型是利用上述位姿估计模型的训练方法实施例提供的训练方法获得的。

步骤S23，基于目标深度图像中待定位对象的深度信息，对目标初始位姿进行优化，得到待定位对象的目标位姿。

其中，得到待定位对象的目标位姿的方式可参考上述位姿估计模型的训练方法实施例中获取优化位姿的方式。

在本公开实施例提供的位姿估计方法中，利用位姿估计模型对目标彩色图像进行处理，得到待定位对象的目标初始位姿之后，再利用目标深度图像对目标初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了目标彩色图像中颜色、纹理、轮廓等特征，又利用了目标深度图像中的深度特征，使得优化后的待定位对象的目标位姿更为准确。

在一些实施例中，本公开实施例提供的位姿估计方法可以应用于增强现实应用领域。

在一些实施例中，本公开实施例提供的位姿估计方法的执行主体可以是位姿估计装置，该位姿估计装置可以是任意一种能够执行本公开实施例提供的位姿估计方法的终端设备、服务器或者其它处理设备。其中，终端设备可以为增强现实显示设备、视觉定位设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些实现方式中，该位姿估计方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

本领域技术人员可以理解，本公开实施例提供的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图5，图5是本公开实施例提供的一种位姿估计模型的训练装置的组成结构示意图。位姿估计模型的训练装置50包括样本图像获取部分51、样本位姿估计部分52、样本位姿优化部分53以及参数调整部分54。其中，样本图像获取部分51，被配置为获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；样本位姿估计部分52，被配置为利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿；样本位姿优化部分53，被配置为基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；参数调整部分54，被配置为基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。

上述方案中，利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿之后，再利用样本深度图像对样本初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了样本彩色图像中颜色、纹理、轮廓等特征，又利用了样本深度图像中的深度特征，使得优化后的待定位对象的优化位姿更为准确。并且，通过使用优化位姿和样本位姿之间的差异，调整位姿估计模型中的网络参数，而无需对样本彩色图像进行标注，减少了标注工作量，提高了对位姿估计模型的训练效率。

一些公开实施例中，样本位姿优化部分53基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿，包括：基于样本初始位姿以及待定位对象对应的预设三维模型，确定关于待定位对象的渲染深度图；利用渲染深度图和样本深度图像之间的差异，确定优化项；调整样本初始位姿，以使优化项满足预设要求，并将调整后的样本初始位姿作为优化位姿。

上述方案中，通过基于样本初始位姿以及待定位对象对应的预设三维模型，确定关于待定位对象的渲染深度图，然后基于渲染深度图和样本深度图像之间的差异，构建优化项，利用优化项对样本初始位姿进行调整，使得调整后的样本初始位姿更为准确。

一些公开实施例中，预设要求为优化项最小化；和/或，样本位姿优化部分53还被配置为：基于样本初始位姿以及预设三维模型，确定关于待定位对象的法线图；以及，样本位姿优化部分53利用渲染深度图和样本深度图像之间的差异，确定优化项，包括：分别对渲染深度图和样本深度图像进行反投影，得到渲染深度图对应的第一点云和样本深度图像对应的第二点云，第一点云中包括至少一个对象像素点对应的第一三维点、第二点云中包括各对象像素点对应的第二三维点，对象像素点为样本彩色图像中属于待定位对象的像素点；对于每一对象像素点，确定对象像素点对应的偏差表征值，偏差表征为对象像素点对应的目标位姿差与对象像素点在法线图中对应的法线方向之间的乘积，其中，目标位姿差为对象像素点对应的第一三维点和对应的第二三维点之间的位姿差；结合各对象像素点对应的偏差表征值，确定优化项。

上述方案中，通过反投影渲染深度图和样本深度图像得到第一点云和第二点云，然后，基于第一点云中的三维点与第二点云中的三维点之间的差异，集合各点的法线方向，确定各对象像素点对应的偏差表征值，使得确定的偏差表征值更为准确。

一些公开实施例中，基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数之前，调整部分54还被配置为：判断优化位姿是否为预设错误估计位姿；响应于优化位姿不为预设错误估计位姿，执行基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数的步骤。

上述方案中，通过在优化位姿不为预设错误估计位姿的情况下，使用该优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数，可以减少错误估计对位姿估计模型的扰乱。

一些公开实施例中，调整部分54判断优化位姿是否为预设错误估计位姿，包括：获取各对象像素点对应的偏差表征值之间的集中趋势表征值，其中，对象像素点为样本彩色图像中属于待定位对象的像素点，对象像素点对应的偏差表征值为对象像素点对应的目标位姿差与对象像素点对应的法线方向之间的乘积，目标位姿差为对象像素点对应的第一三维点和对应的第二三维点之间的位姿差，第一三维点为渲染深度图对应的第一点云中三维点，第二三维点为样本深度图像对应的第二点云中的三维点；判断集中趋势表征值是否小于或等于预设尺寸，预设尺寸与待定位对象在物理世界下的尺寸相关；响应于集中趋势表征值小于或等于预设尺寸，确定优化位姿不为预设错误估计位姿。

上述方案中，通过在集中趋势表征值不大于预设尺寸的情况下，认为优化位姿不是预设错误估计位姿，实现基于待定位对象的物理尺寸对优化位姿的过滤。

一些公开实施例中，样本位姿估计部分52利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿，包括：利用位姿估计模型，确定关于待定位对象的至少一个三维关键点在样本彩色图像上的投影位置；基于各三维关键点在样本彩色图像上的投影位置以及目标相机的内参，确定待定位对象的样本初始位姿。

上述方案中，通过位姿估计模型，能够确定待定位对象的三维关键点在样本彩色图像上的投影位置，从而根据确定的三维关键点的投影位置以及目标相机的内部参数，得到待定位对象的样本初始位姿。

一些公开实施例中，样本位姿估计部分52利用位姿估计模型，确定待定位对象的至少一个三维关键点在样本彩色图像上的投影位置，包括：利用位姿估计模型，预测各对象像素点分别到每一投影位置的方向向量，对象像素点为样本彩色图像中属于待定位对象的像素点；对于每一投影位置，从与投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各方向向量对应的候选投影位置；基于各候选投影位置之间的位置关系，确定各候选投影位置的分数；将分数满足预设要求的候选投影位置，作为投影位置。

上述方案中，通过基于各像素点关于投影位置的方向向量确定至少一个候选投影位置，然后从至少一个候选投影位置中选出满足要求的候选投影位置，作为最终的投影位置，使得确定得到的投影位置更为准确。

一些公开实施例中，样本位姿估计部分52从与投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各方向向量对应的候选投影位置，包括：将各对象像素点的位置与对象像素点对应的方向向量求和，得到各对象像素点对应的候选投影位置；基于各候选投影位置之间的位置关系，确定各候选投影位置的分数，包括：对于每一候选投影位置，确定候选投影位置与其他候选投影位置之间的目标距离的数量，并将目标距离的数量作为分数，目标距离为小于或等于预设距离的距离；将分数满足预设要求的候选投影位置，作为投影位置，包括：将最大分数对应的候选投影位置作为投影位置。

上述方案中，通过确定各候选投影位置之间的距离，确定最终的投影位置，使得确定的投影位置更为准确。

一些公开实施例中，样本位姿估计部分52利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿，包括：利用位姿估计模型对样本彩色图像进行目标检测，得到待定位对象的位置；基于待定位对象的位置，对样本彩色图像进行裁剪，得到包含待定位对象的局部图像；对局部图像进行处理，得到待定位对象的样本初始位姿。

上述方案中，通过先对样本彩色图像进行目标检测，得到待定位对象的位置之后，对样本彩色图像进行裁剪，得到包含待定位对象的局部图像，通过对局部图像进行处理得到待定位对象的样本初始位姿，由此能够减少背景的干扰，从而提高样本初始位姿的识别准确度。

请参阅图6，图6是本公开实施例提供的一种位姿估计装置的组成结构示意图。

位姿估计装置60包括目标图像获取部分61、目标位姿估计部分62以及目标位姿优化部分63。其中，目标图像获取部分61，被配置为获取包含待定位对象的目标图像，所述目标图像包括目标彩色图像和所述目标彩色图像对应的目标深度图像；目标位姿估计部分62，被配置为利用位姿估计模型对所述目标彩色图像进行处理，得到所述待定位对象的目标初始位姿；目标位姿优化部分63，被配置为基于所述目标深度图像中所述待定位对象的深度信息，对所述目标初始位姿进行优化，得到所述待定位对象的目标位姿；其中，所述位姿估计模型是利用上述位姿估计模型的训练装置实施例中提供的位姿估计模型的训练装置训练得到的。

上述方案中，利用位姿估计模型对目标彩色图像进行处理，得到待定位对象的目标初始位姿之后，再利用目标深度图像对目标初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了目标彩色图像中颜色、纹理、轮廓等特征，又利用了目标深度图像中的深度特征，使得优化后的待定位对象的目标位姿更为准确。

请参阅图7，图7是本公开实施例提供的一种电子设备的结构示意图。

电子设备70包括相互耦接的存储器71和处理器72，处理器72被配置为执行存储器71中存储的计算机程序指令，以实现上述任一位姿估计模型的训练方法实施例的步骤，或实现上述任一位姿估计方法实施例中的步骤。在一些实施场景中，电子设备70可以包括但不限于：微型计算机、服务器，此外，电子设备70还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

在一些实施例中，处理器72被配置为控制其自身以及存储器71以实现上述任一位姿估计模型的训练方法实施例中的步骤，或实现上述任一位姿估计方法实施例中的步骤。处理器72还可以称为CPU(Central Processing Unit，中央处理单元)。处理器72可能是一种集成电路芯片，具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器72可以由集成电路芯片共同实现。

上述方案中，利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿之后，再利用样本深度图像对样本初始位姿进行优化，这样，对待定位对象的位姿估计过程既利用了样本彩色图像中颜色、纹理、轮廓等特征，又利用了样本深度图像中的深度特征，使得优化后的待定位对象的优化位姿更为准确。并且，利用优化位姿和样本位姿之间的差异，调整位姿估计模型中的网络参数，无需对样本彩色图像进行标注，减少了标注工作量，提高了对位姿估计模型的训练效率。

请参阅图8，图8为本公开实施例提供的一种计算机可读存储介质的结构示意图。

计算机可读存储介质80存储有能够被处理器运行的计算机程序指令801，程序指令801用于实现上述任一位姿估计模型的训练方法实施例中的步骤，或实现上述任一位姿估计方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其实现可以参照上文方法实施例的描述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考。

在本公开所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本公开各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

若本公开技术方案涉及个人信息，应用本公开技术方案的产品在处理个人信息前，已明确告知个人信息处理规则，并取得个人自主同意。若本公开技术方案涉及敏感个人信息，应用本公开技术方案的产品在处理敏感个人信息前，已取得个人单独同意，并且同时满足“明示同意”的要求。例如，在摄像头等个人信息采集装置处，设置明确显著的标识告知已进入个人信息采集范围，将会对个人信息进行采集，若个人自愿进入采集范围即视为同意对其个人信息进行采集；或者在个人信息处理的装置上，利用明显的标识/信息告知个人信息处理规则的情况下，通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权；其中，个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

工业实用性

本公开实施例提供了一种位姿估计方法及相关模型的训练方法、装置、电子设备、计算机可读介质和计算机程序产品，其中，位姿估计模型的训练方法，包括：获取包含待定位对象的样本图像，样本图像包含样本彩色图像和样本彩色图像对应的样本深度图像；利用位姿估计模型对样本彩色图像处理，得到待定位对象的样本初始位姿；基于样本深度图像中待定位对象的深度信息，对样本初始位姿进行优化，得到待定位对象的优化位姿；基于优化位姿与样本初始位姿之间的差异，调整位姿估计模型中的网络参数。这样，利用位姿估计模型对样本彩色图像进行处理，得到待定位对象的样本初始位姿之后，再利用样本深度图像对样本初始位姿进行优化，使得对待定位对象的位姿估计过程既利用了样本彩色图像中颜色、纹理、轮廓等特征，又利用了样本深度图像中的深度特征，使得优化后的待定位对象的优化位姿更为准确。并且，利用优化位姿和样本位姿之间的差异，调整位姿估计模型中的网络参数，无需对样本彩色图像进行标注，减少了标注工作量，提高了对位姿估计模型的训练效率。

Claims

一种位姿估计模型的训练方法，包括：

获取包含待定位对象的样本图像，所述样本图像包含样本彩色图像和所述样本彩色图像对应的样本深度图像；

利用位姿估计模型对所述样本彩色图像进行处理，得到所述待定位对象的样本初始位姿；

基于所述样本深度图像中所述待定位对象的深度信息，对所述样本初始位姿进行优化，得到所述待定位对象的优化位姿；

基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数。
根据权利要求1所述的方法，其中，所述基于所述样本深度图像中所述待定位对象的深度信息，对所述样本初始位姿进行优化，得到所述待定位对象的优化位姿，包括：

基于所述样本初始位姿以及所述待定位对象对应的预设三维模型，确定关于所述待定位对象的渲染深度图；

利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项；

调整所述样本初始位姿，以使所述优化项满足预设要求，并将调整后的样本初始位姿作为所述优化位姿。
根据权利要求2所述的方法，其中，所述预设要求为所述优化项最小化；和/或，

所述方法还包括：基于所述样本初始位姿以及所述预设三维模型，确定关于所述待定位对象的法线图；以及，所述利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项，包括：

分别对所述渲染深度图和所述样本深度图像进行反投影，得到所述渲染深度图对应的第一点云和所述样本深度图像对应的第二点云，所述第一点云中包括至少一个对象像素点对应的第一三维点、所述第二点云中包括各所述对象像素点对应的第二三维点，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；

对于每一所述对象像素点，确定所述对象像素点对应的偏差表征值，所述偏差表征值为所述对象像素点对应的目标位姿差与所述对象像素点在所述法线图中对应的法线方向之间的乘积，其中，所述目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差；

基于各所述对象像素点对应的偏差表征值，确定所述优化项。
根据权利要求2或3所述的方法，其中，所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数之前，所述方法还包括：

判断所述优化位姿是否为预设错误估计位姿；

响应于所述优化位姿不为所述预设错误估计位姿，执行所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数的步骤。
根据权利要求4所述的方法，其中，所述判断所述优化位姿是否为预设错误估计位姿，包括：

获取各对象像素点对应的偏差表征值之间的集中趋势表征值，其中，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点，所述对象像素点对应的偏差表征值为所述对象像素点对应的目标位姿差与所述对象像素点对应的法线方向之间的乘积，所述目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差，所述第一三维点为所述渲染深度图对应的第一点云中三维点，所述第二三维点为所述样本深度图像对应的第二点云中的三维点；

判断所述集中趋势表征值是否小于或等于预设尺寸，所述预设尺寸与所述待定位对象在物理世界下的尺寸相关；

响应于所述集中趋势表征值小于或等于所述预设尺寸，确定所述优化位姿不为所述预设错误估计位姿。
根据权利要求5所述的方法，其中，所述集中趋势表征值为各对象像素点对应的偏差表征值的平均值。
根据权利要求1-6任一项所述的方法，其中，所述利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿，包括：

利用所述位姿估计模型，确定所述待定位对象的至少一个三维关键点在所述样本彩色图像上的投影位置；

基于各所述三维关键点在所述样本彩色图像上的投影位置以及目标相机的内参，确定所述待定位对象的样本初始位姿。
根据权利要求7所述的方法，其中，所述利用所述位姿估计模型，确定所述待定位对象的至少一个三维关键点在所述样本彩色图像上的投影位置，包括：

利用所述位姿估计模型，预测各对象像素点分别到每一所述投影位置的方向向量，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；

对于每一所述投影位置，从与所述投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置；

基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数；

将所述分数满足预设要求的候选投影位置，作为所述投影位置。
根据权利要求8所述的方法，其中，所述从与所述投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置，包括：

将各所述对象像素点的位置与所述对象像素点对应的方向向量求和，得到各所述对象像素点对应的候选投影位置；

所述基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数，包括：

对于每一所述候选投影位置，确定所述候选投影位置与其他候选投影位置之间的目标距离的数量，并将所述目标距离的数量作为所述分数，所述目标距离为小于或等于预设距离的距离；

所述将所述分数满足预设要求的候选投影位置，作为所述投影位置，包括：

将最大分数对应的候选投影位置作为所述投影位置。
根据权利要求1-9任一项所述的方法，其中，所述利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿，包括：

利用所述位姿估计模型对所述样本彩色图像进行目标检测，得到所述待定位对象的位置；

基于所述待定位对象的位置，对所述样本彩色图像进行裁剪，得到包含所述待定位对象的局部图像；

对所述局部图像进行处理，得到所述待定位对象的样本初始位姿。
一种位姿估计方法，包括：

获取包含待定位对象的目标图像，所述目标图像包括目标彩色图像和所述目标彩色图像对应的目标深度图像；

利用位姿估计模型对所述目标彩色图像进行处理，得到所述待定位对象的目标初始位姿；

基于所述目标深度图像中所述待定位对象的深度信息，对所述目标初始位姿进行优化，得到所述待定位对象的目标位姿；

其中，所述位姿估计模型是利用权利要求1至10任一项所述的位姿估计模型的训练方法训练得到的。
一种位姿估计模型的训练装置，包括：

样本图像获取部分，被配置为获取包含待定位对象的样本图像，所述样本图像包含样本彩色图像和所述样本彩色图像对应的样本深度图像；

样本位姿估计部分，被配置为利用位姿估计模型对所述样本彩色图像处理，得到所述待定位对象的样本初始位姿；

样本位姿优化部分，被配置为基于所述样本深度图像中所述待定位对象的深度信息，对所述样本初始位姿进行优化，得到所述待定位对象的优化位姿；

参数调整部分，被配置为基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数。
根据权利要求12所述的装置，其中，所述样本位姿优化部分，还被配置为：

基于所述样本初始位姿以及所述待定位对象对应的预设三维模型，确定关于所述待定位对象的渲染深度图；

利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项；

调整所述样本初始位姿，以使所述优化项满足预设要求，并将调整后的样本初始位姿作为所述优化位姿。
根据权利要求13所述的装置，其中，所述预设要求为所述优化项最小化；和/或，

所述样本位姿优化部分，还被配置为：

基于所述样本初始位姿以及所述预设三维模型，确定关于所述待定位对象的法线图；以及，

所述利用所述渲染深度图和所述样本深度图像之间的差异，确定优化项，包括：

分别对所述渲染深度图和所述样本深度图像进行反投影，得到所述渲染深度图对应的第一点云和所述样本深度图像对应的第二点云，所述第一点云中包括至少一个对象像素点对应的第一三维点、所述第二点云中包括各所述对象像素点对应的第二三维点，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；

对于每一所述对象像素点，确定所述对象像素点对应的偏差表征值，所述偏差表征值为所述对象像素点对应的目标位姿差与所述对象像素点在所述法线图中对应的法线方向之间的乘积，其中，所述目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差；

基于各所述对象像素点对应的偏差表征值，确定所述优化项。
根据权利要求13或14所述的装置，其中，所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数之前，所述调整部分还被配置为：

判断所述优化位姿是否为预设错误估计位姿；

响应于所述优化位姿不为所述预设错误估计位姿，执行所述基于所述优化位姿与所述样本初始位姿之间的差异，调整所述位姿估计模型中的网络参数的步骤。
根据权利要求15所述的装置，其中，所述判断所述优化位姿是否为预设错误估计位姿，包括：

获取各对象像素点对应的偏差表征值之间的集中趋势表征值，其中，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点，所述对象像素点对应的偏差表征值为所述对象像素点对应的目标位姿差与所述对象像素点对应的法线方向之间的乘积，所述目标位姿差为所述对象像素点对应的第一三维点和对应的第二三维点之间的位姿差，所述第一三维点为所述渲染深度图对应的第一点云中三维点，所述第二三维点为所述样本深度图像对应的第二点云中的三维点；

判断所述集中趋势表征值是否小于或等于预设尺寸，所述预设尺寸与所述待定位对象在物理世界下的尺寸相关；

响应于所述集中趋势表征值小于或等于所述预设尺寸，确定所述优化位姿不为所述预设错误估计位姿。
根据权利要求16所述的装置，其中，所述集中趋势表征值为各对象像素点对应的偏差表征值的平均值。
根据权利要求12-17任一项所述的装置，其中，所述样本位姿估计部分还被配置为：

利用所述位姿估计模型，确定所述待定位对象的至少一个三维关键点在所述样本彩色图像上的投影位置；

基于各所述三维关键点在所述样本彩色图像上的投影位置以及目标相机的内参，确定所述待定位对象的样本初始位姿。
根据权利要求18所述的装置，其中，所述利用所述位姿估计模型，确定所述待定位对象的至少一个三维关键点在所述样本彩色图像上的投影位置，包括：

利用所述位姿估计模型，预测各对象像素点分别到每一所述投影位置的方向向量，所述对象像素点为所述样本彩色图像中属于所述待定位对象的像素点；

对于每一所述投影位置，从与所述投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置；

基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数；

将所述分数满足预设要求的候选投影位置，作为所述投影位置。
根据权利要求19所述的装置，其中，所述从与所述投影位置对应的至少一个方向向量中确定预设数量的方向向量，生成各所述方向向量对应的候选投影位置，包括：

将各所述对象像素点的位置与所述对象像素点对应的方向向量求和，得到各所述对象像素点对应的候选投影位置；

所述基于各所述候选投影位置之间的位置关系，确定各所述候选投影位置的分数，包括：

对于每一所述候选投影位置，确定所述候选投影位置与其他候选投影位置之间的目标距离的数量，并将所述目标距离的数量作为所述分数，所述目标距离为小于或等于预设距离的距离；

所述将所述分数满足预设要求的候选投影位置，作为所述投影位置，包括：

将最大分数对应的候选投影位置作为所述投影位置。
根据权利要求12-20任一项所述的装置，其中，所述样本位姿估计部分还被配置为：

利用所述位姿估计模型对所述样本彩色图像进行目标检测，得到所述待定位对象的位置；

基于所述待定位对象的位置，对所述样本彩色图像进行裁剪，得到包含所述待定位对象的局部图像；

对所述局部图像进行处理，得到所述待定位对象的样本初始位姿。
一种位姿估计装置，包括：

目标图像获取部分，被配置为获取包含待定位对象的目标图像，所述目标图像包括目标彩色图像和所述目标彩色图像对应的目标深度图像；

目标位姿估计部分，被配置为利用位姿估计模型对所述目标彩色图像进行处理，得到所述待定位对象的目标初始位姿；

目标位姿优化部分，被配置为基于所述目标深度图像中所述待定位对象的深度信息，对所述目标初始位姿进行优化，得到所述待定位对象的目标位姿；

其中，所述位姿估计模型是利用权利要求12所述的位姿估计模型的训练装置训练得到的。
一种电子设备，包括相互耦接的存储器和处理器，所述处理器被配置为执行所述存储器中存储的程序指令，以实现权利要求1至10任一项所述的位姿估计模型的训练方法，或实现权利要求11所述的位姿估计方法。
一种计算机可读存储介质，其上存储有程序指令，其中，所述程序指令被处理器执行时实现权利要求1至10任一项所述的位姿估计模型的训练方法，或实现权利要求11所述的位姿估计方法。
一种计算机程序产品，所述计算机程序产品包括计算机程序或指令，在所述计算机程序或指令在电子设备上运行的情况下，使得所述电子设备执行权利要求1至10中任意一项所述的位姿估计模型的训练方法，或实现权利要求11所述的位姿估计方法。