CN115994944A

CN115994944A - 三维关键点预测方法、训练方法及相关设备

Info

Publication number: CN115994944A
Application number: CN202111202085.8A
Authority: CN
Inventors: 张亮
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2023-04-21

Abstract

本申请涉及计算机视觉技术领域，公开了一种三维关键点预测方法、训练方法及相关设备，该关键点预测模型的训练方法包括：获取样本图像对，样本图像对包括第一样本图像和第二样本图像；根据第一样本图像进行三维人体构建，得到三维人体模型；在三维人体模型中进行关键点采样，得到关键点的三维坐标，关键点的三维坐标用于确定人体像素区域呈现的姿态；由关键点预测模型根据第二样本图像进行关键点预测，得到关键点的预测三维坐标；根据关键点的三维坐标和关键点的预测三维坐标，计算第一预测损失；根据第一预测损失反向训练关键点预测模型；本方案的关键点预测模型可以自动补全图像中被遮挡的关键点。

Description

三维关键点预测方法、训练方法及相关设备

技术领域

本申请涉及计算机视觉技术领域，更具体地，涉及一种三维关键点预测方法、训练方法及相关设备。

背景技术

人体姿态识别是计算机视觉技术领域中的一个重要应用场景。人体姿态识别一般是先基于图像确定表征人体姿态的多个关键点，然后通过所确定的多个关键点进行姿态识别。

实际应用场景中，可能存在图像中关键点被遮挡的情况，在该种情况下，无法确定被遮挡的关键点，造成所确定表征姿态的关键点不全，进而可能造成姿态识别不准确。

发明内容

鉴于上述问题，本申请实施例提出了一种三维关键点预测方法、训练方法及相关设备，以改善上述问题。

根据本申请实施例的一个方面，提供了一种关键点预测模型的训练方法，包括：获取样本图像对，所述样本图像对包括第一样本图像和第二样本图像，所述第二样本图像是对所述第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的；根据所述第一样本图像进行三维人体构建，得到三维人体模型；在所述三维人体模型中进行关键点采样，得到关键点的三维坐标，所述关键点的三维坐标用于确定所述人体像素区域呈现的姿态；由关键点预测模型根据所述第二样本图像进行关键点预测，得到关键点的预测三维坐标；所述关键点预测模型用于根据输入图像预测所述输入图像中具有姿态识别作用的关键点的三维坐标；根据所述关键点的三维坐标和所述关键点的预测三维坐标，计算第一预测损失；根据所述第一预测损失反向训练所述关键点预测模型。

根据本申请实施例的一个方面，提供了一种三维关键点预测方法，包括：获取目标图像，所述目标图像包括人体像素区域；由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息，所述关键点预测模型是按照如上所述关键点预测模型的训练方法训练得到的。

根据本申请实施例的一个方面，提供了一种关键点预测模型的训练装置，包括：样本图像对获取模块，用于获取样本图像对，所述样本图像对包括第一样本图像和第二样本图像，所述第二样本图像是对所述第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的；第一三维人体构建模块，用于根据所述第一样本图像进行三维人体构建，得到三维人体模型；第一采样模块，用于在所述三维人体模型中进行关键点采样，得到关键点的三维坐标，所述关键点的三维坐标用于确定所述人体像素区域呈现的姿态；第一预测模块，用于由关键点预测模型根据所述第二样本图像进行关键点预测，得到关键点的预测三维坐标；所述关键点预测模型用于根据输入图像预测所述输入图像中具有姿态识别作用的关键点的三维坐标；第一预测损失计算模块，用于根据所述关键点的三维坐标和所述关键点的预测三维坐标，计算第一预测损失；第一反向训练模块，用于根据所述第一预测损失反向训练所述关键点预测模型。

在本申请的一些实施例中，所述三维人体模型是通过多人线性蒙皮SMPL模型构建的；关键点预测模型的训练装置，还包括：第二获取模块，用于获取第三样本图像和所述第三样本图像的标注信息；模型构建模块，用于由所述SMPL模型根据所述第三样本图像进行三维人体模型构建，得到预测三维人体模型；第二预测损失计算模块，用于根据所述预测三维人体模型和所述第三样本图像的标注信息，计算第二预测损失；第二反向训练模块，用于根据所述第二预测损失反向训练所述SMPL模型。

在本申请的一些实施例中，所述标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；第二预测损失计算模块，包括：采样单元，用于在所述预测三维人体模型中进行标注关键点采样，得到标注关键点对应的预测三维坐标；预测二维坐标确定单元，用于根据所述目标图像采集装置的内参矩阵，将所述标注关键点对应的预测三维坐标向所述第三样本图像所在图像平面进行投影，得到所述标注关键点在所述图像平面上的预测二维坐标；所述目标图像采集装置是指采集获得所述第三样本图像的图像采集装置；三维预测损失计算单元，用于根据所述标注关键点的标注三维坐标和所述标注关键点的预测三维坐标，计算三维预测损失；二维预测损失计算单元，用于根据所述标注关键点的预测二维坐标和所述标注关键点的标注二维坐标，计算二维预测损失；第二预测损失计算单元，用于根据所述三维预测损失和所述二维预测损失，计算所述第二预测损失。

在本申请的一些实施例中，所述标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；关键点预测模型的训练装置还包括：深度图像获取模块，用于获取所述第三样本图像对应的深度图像；深度值获取模块，用于根据所述深度图像获取标注关键点的深度值；三维坐标确定模块，用于根据所述标注关键点的深度值、目标图像采集装置的内参矩阵和所述标注关键点的二维坐标，确定所述标注关键点的标注三维坐标；所述目标图像采集装置是指采集获得所述第三样本图像的图像采集装置。

在本申请的一些实施例中，三维坐标确定模块，包括：目标变换矩阵确定单元，用于根据目标图像采集装置的内参矩阵和所述标注关键点的深度值，确定所述标注关键点对应的目标变换矩阵；标注三维坐标确定单元，用于根据所述目标变换矩阵，将所述标注关键点的二维坐标向三维空间进行变换，得到所述标注关键点的标注三维坐标。

在本申请的一些实施例中，所述关键点预测模型包括特征提取网络和三个分支网络；其中，一个分支网络用于预测关键点在一个坐标轴上的坐标；所述预测三维坐标包括所预测到的关键点在三个坐标轴上的坐标；第一预测模块，包括：特征提取单元，用于通过所述特征提取网络对所述第二样本图像进行特征提取，得到所述第二样本图像的特征图；输入单元，用于将所述特征图分别输入所述三个分支网络；坐标输出单元，用于由每一所述分支网络根据所述特征图进行坐标预测，得到所述预测关键点在每一分支网络所对应坐标轴上的坐标。

在本申请的一些实施例中，所述分支网络包括均值处理层、基于注意力的残差网络和全连接层；在本实施例中，坐标输出单元，包括：均值处理单元，用于由所述均值处理层将所述特征图沿所述分支网络所对应坐标轴的方向取均值，得到第一中间特征图；卷积处理单元，用于由所述基于注意力的残差网络对所述第一中间特征图进行卷积处理，得到第二中间特征图；全连接输出单元，用于由所述全连接层根据所述第二中间特征图输出在所述分支网络所对应坐标轴上的坐标。

根据本申请实施例的一个方面，提供了一种三维关键点预测装置，包括：目标图像获取模块，用于获取目标图像，所述目标图像包括人体像素区域；第二预测模块，用于由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息，所述关键点预测模型是按照如上所述关键点预测模型的训练方法训练得到的。

在本申请的一些实施例中，三维关键点预测装置还包括：姿态确定模块，用于根据所述目标三维关键点信息确定所述目标图像中的人体像素区域所呈现的姿态。

在本申请的一些实施例中，三维关键点预测装置，还包括：虚拟对象控制模块，用于根据所述目标三维关键点信息，控制虚拟对象模拟所述目标图像中的人体像素区域所呈现的姿态。

根据本申请实施例的一个方面，提供了一种电子设备，包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上所述关键点预测模型的训练方法，或者如上所述三维关键点预测方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被处理器执行时，实现如上所述关键点预测模型的训练方法，或者如上所述三维关键点预测方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现所述关键点预测模型的训练方法，或者如上所述三维关键点预测方法。

在本申请的方案中，将第一样本图像中的人体像素区域进行遮挡处理或者进行剪裁处理，得到第二样本图像，使得相较于第一样本图像的人像像素区域中包括的关键点，第二样本图像中的人体像素区域所包括的关键点并不全；然后将第二样本图像和在通过第一样本图像所构建的三维人体模型中采样到的关键点的三维坐标来对关键点预测模型进行训练，从而，使得该关键点预测模型可以学习到自动补全图像中被遮挡的关键点的能力，从而，即使输入关键点预测模型的图像是表达姿态的多个关键点被部分遮挡的图像，该关键点预测模型也可以准确输出被遮挡关键点的三维坐标，从而，可以保证基于所输出三维坐标所识别出姿态的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请一实施例示出的应用场景的示意图。

图2是根据本申请的一个实施例示出的关键点预测模型的训练方法的流程图。

图3是根据本申请一实施例示出的关键点集合中各关键点在一SMPL模型中的位置示意图。

图4是根据本申请一实施例示出的步骤220之前步骤的流程图。

图5A示出了按照相关技术中的关键点预测模型针对输入的目标图像所输出三维关键点的示意图。

图5B示出按照本申请一实施例示出训练后的关键点预测模型针对输入的目标图像所输出三维关键点的示意图。

图6是根据本申请一实施例示出的步骤120之前步骤的流程图。

图7是根据本申请一实施例示出的确定标注关键点的标注三维坐标的流程图。

图8是根据本申请一实施例示出的步骤630的流程图。

图9是根据本申请一实施例示出的对SMPL模型进行训练的示意图。

图10是根据本申请一实施例示出的步骤240的流程图。

图11是根据本申请一实施例示出的关键点预测模型预测关键点的三维坐标的示意图。

图12是根据本申请一实施例示出的步骤1030的流程图。

图13是根据本申请一实施例示出的分支网络预测x方向上坐标的示意图。

图14是根据本申请一实施例示出的三维关键点预测方法的流程图。

图15是根据本申请一具体实施示出的进行三维关键点预测的流程图。

图16A-16C是根据本申请一实施例示出的基于真实用户的姿态控制虚拟对象的示意图。

图16D示出了SMPL模型基于图16A所示的目标图像构建的三维人体模型的示意图。

图17是根据本申请一实施例示出的关键点预测模型的训练装置的框图。

图18是根据本申请一实施例示出的三维关键点预测装置的框图。

图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在进行具体说明之前，对本申请涉及的术语进行如下解释：

SMPL(Skinned Multi-Person Linear，多人线性蒙皮)模型：一种参数化的人体蒙皮模型，通过23个关节点(joints)的旋转以及10个形态(shape)参数就生成人体蒙皮。SMPL模型的网格(mesh)由N＝6890个顶点(vertices)和K＝23个关节点组成。人体可以理解为是一个基础模型和在该模型基础上进行形变的总和，在形变基础上进行PCA(PrincipalComponent Analysis，主成成分分析)，得到刻画形状的低维参数即形状参数(shape)；同时，使用运动树表示人体的姿势，即运动树每个关节点和父节点的旋转关系，该关系可以表示为三维向量，最终每个关节点的局部旋转向量构成了SMPL模型的姿势参数(pose)，SMPL的姿势训练数据涵盖了多种体型，使得通过它能够很好地预测关节点的位置。

深度图像：其上的每个像素记录从视点到物体的距离，以灰度图表示，视点到物体的距离越近则在深度图像中越黑。

Kinect：一种3D体感摄影机，可以用于采集深度图像。

关键点：又称为人体关键点，是指对人体上对姿态识别具有代表性的点。在实际应用中，关键点可以是人体的关节点，例如头部关键点、颈部关键点、肩部关键点、手肘关键点、膝盖关键点、胯部关键点等。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图1是根据本申请一实施例示出的应用场景的示意图，如图1所示，该应用场景包括终端110和通过网络与终端110通信连接的服务端120，网络多可以是广域网或者局域网，或者是二者的组合。

终端110可以将第一样本图像发送到服务端120，该第一样本图像包括人体像素区域。终端110可以是智能手机、平板电脑、笔记本电脑、台式电脑、智能电视、车载终端等设备。

服务端120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

服务端120在接收到第一样本图像后，可以对第一样本图像中的人体像素区域进行遮挡处理或者剪裁处理，得到第二样本图像，并将第一样本图像与第二样本图像相关联，得到样本图像对，并将样本图像对存储于第一训练数据库121中，实现第一样本训练数据库121的构建。服务端120和第一训练数据库121可以分开设置，也可以集成在一起。

在其他实施例中，也可是终端110先将第一样本图像进行部分遮挡处理或者剪裁处理得到第二样本图像后，将第一样本图像和第二样本图像关联发送到服务端120，以使服务端120将包括第一样本图像和第二样本图像的样本图像对存储于第一训练数据库121中。

服务端120中还可以部署SMPL模型和待训练的关键点预测模型，服务端120可以利用第一样本训练数据库121中的样本图像对，按照本申请实施例所提供的方案，对关键点预测模型进行训练。

在关键点预测模型结束后，该关键点预测模型可以基于包括人体像素区域的图像进行三维关键点预测，输出关键点的三维坐标。而且，由于是结合对第一样本图像进行遮挡处理或者剪裁处理所得到的第二样本图像进行关键点预测模型的训练，因此，该关键点预测模型可以学习到将被遮挡的关键点补全的能力，从而，即使所输入的图像中呈现的关键点并不完整，该关键点预测模型可以根据该图像预测到图像所表征姿态中的全部关键点的三维坐标。

终端110还可以向服务端120发送待进行关键点预测的目标图像，该目标图像包括人体像素区域。服务端120可以基于训练后的关键点预测模型来根据目标图像输出目标三维关键点信息，该目标三维关键点信息指示了所预测到关键点的三维坐标。在终端110的显示界面中，可以根据所预测到的三维坐标在预设三维坐标系中确定关键点的位置并进行关键点的显示。由此，用户可以根据关键点在三维坐标系中的位置，确定目标图像中人体像素区域所呈现的姿态。

在本方案中，服务端120采用人工智能技术中的计算机视觉来基于二维图像预测关键点的三维坐标，从而便于进行姿态识别。

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学，就是利用摄像机和计算机代替人眼对目标进行识别、跟踪和测量等，并进一步做图像处理，使计算机处理成为更适合人眼观察或者传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

图2是根据本申请的一个实施例示出的关键点预测模型的训练方法的流程图，该方法可以由具备处理能力的电子设备执行，该电子设备可以是图1所示的服务端或终端，即该方法可以由服务端或终端执行，也可以由服务端和终端共同执行，在此不进行具体限定。参照图2所示，该方法至少包括步骤210至260，详细介绍如下：

步骤210，获取样本图像对，样本图像对包括第一样本图像和第二样本图像，第二样本图像是对第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的。

第一样本图像中包括人体像素区域，其中，第一样本图像中的人体像素区域所呈现的可以是人体的部分部位(例如人体的上半身)也可以是人体的全身部位，在此不进行具体限定。第一样本图像和第二样本图像可以是彩色的RGB图像。

通过对第一样本图像中的人体像素区域进行部分遮挡处理，或者对第一样本图像中的人体像素区域进行剪裁处理，从而，第一样本图像的人体像素区域中的关键点并不完全存在于第二样本图像的人体像素区域，即第二样本图像中的人体像素区域中包括的关键点仅仅是第一样本图像的人体像素区域中的部分关键点。

在一些实施例中，可以对第一样本图像进行随机剪裁，或者随机进行部分遮挡，从而，基于同一第一样本图像可以得到多个第二样本图像，其中，针对同一第一样本图像所部分遮挡的区域、或者被剪裁掉的区域可以根据实际需要设定。

在一些实施例中，可以通过在第一样本图像的人体像素区域中的部分区域(为便于描述，称为第一子区域)添加阴影，即，通过阴影覆盖第一样本图像中的第一子区域，得到第二样本图像，其中，所添加阴影的像素值区别于该第一子区域在第一样本图像中的像素值。

举例来说，若第一样本图像包括人体上半身像素区域，若待遮挡的第一子区域为手腕所在的区域进行遮挡，则通过阴影来覆盖该手腕所在的区域，从而，得到第二样本图像。当然，对第一样本图像中的人体像素区域进行部分遮挡处理中，所确定待遮挡的区域可以根据实际需要进行设定，在此不进行具体限定。

在一些实施例中，可以将第一样本图像中的人体像素区域中的部分像素区域剪裁处理，得到第二样本图像。举例来说，若在第一样本图像中包括人体上半生像素区域，若待剪裁的第二子区域为人体的手肘所在的像素区域，则将人体的手肘所在的像素区域剪裁掉，保留第一样本图像中除人体的手肘所在像素区域外的其他区域，即得到第二样本图像。同理，所设定待被剪裁掉的第二子区域可以根据实际需要设定。

步骤220，根据第一样本图像进行三维人体构建，得到三维人体模型。

在一些实施例中，可以通过三维构建模型来进行三维人体构建。该三维构建模型可以是通过卷积神经网络、全连接神经网络构建的，在此不进行具体限定。

在一些实施例中，该三维人体构建模型可以是多人线性蒙皮SMPL模型。如上所描述，SMPL模型包括6890个顶点，则SMPL模型根据第一样本图像所建立的三维人体模型中对应包括6890个顶点，而且，该三维人体模型中的6890个顶点的三维坐标对应确定。

步骤230，在三维人体模型中进行关键点采样，得到关键点的三维坐标。

在一些实施例中，可以预先设定关键点集合，为便于区分，将该关键点集合称为第一关键点集合。其中，第一关键点集合中包括用于定位人体部位的关键点，例如人体的关节点、骨骼点等，或者其他用于辅助定位人体部位的点，进而，在步骤230中按照第一关键点集合在三维人体模型中进行关键点采样，即确定第一关键点集合中各关键点在在所构建得到的三维人体模型中所对应的顶点，实现在三维人体模型中定位关键点，并对应确定第一关键点集合中各关键点在三维人体模型上的三维坐标。其中，所设定的第一关键点集合中包括多个关键点，对应的，在步骤230中，所采样确定的也是多个关键点在三维人体模型中的三维坐标。

图3是根据本申请一实施例示出的第一关键点集合中各关键点在一SMPL模型中的位置示意图。图3中示出了24个关键点，即图3中标号为0-23的24个关键点。

在不同的应用场景下，第一关键点集合中的关键点可以不同。举例来说，若预测关键点是为了识别人体全身呈现的姿态，则第一关键点集合中可以包括图3所示出标号为0-23的24个关键点，当然，也可以是其他用于反映全身姿态的关键点。

又例如，若预测关键点除了识别人体全身呈现的姿态外还要进一步识别人体面部的姿态，则第一关键点集合中的关键点除了包括图3所示出的24个关键点外，还可以包括脸部区域中的关键点(例如鼻子关键点、嘴唇关键点、左眼关键点、右眼关键点、左眉关键点、右眉关键点等)。

又例如，若预测关键点是为了识别人体上半身呈现的姿态，则第一关键点集合中的关键点可以只包括人体上半身中的关键点。

又例如，若预测关键点是为了识别手的姿态，则第一关键点集合可以仅包括手部区域中的关键点(例如手指(大拇指、食指、中指、小指等)根部关键点、手指端部关键点、手心关键点、手腕关键点等)。根据具体应用场景设置第一关键点集合，从而使得关键点预测模型的训练更具有针对性，更能满足实际需要，提高关键点预测模型的训练效率。

在一些实施中，可以通过确定第一关键点集合中各关键点的热力图来确定该关键点在三维人体模型中的位置。关键点的热力图指的是对关键点在原图像大小的灰度图中，在相同位置用圆形高斯表示，也即表征输入的图像(第二样本图像)中的像素是一关键点的概率。举例来说，若一热力图表征像素点为左手肘关键点的概率，即用概率表达的形式反映左手肘关键点在该像素点处出现的可能性，像素点距离左手肘关键点越近概率越高，距离左手肘关键点越远概率越低，也即像素点为左手肘关键点的概率和像素点距离中心点的相对位置关系服从高斯分布。

步骤240，由关键点预测模型根据第二样本图像进行关键点预测，得到关键点的预测三维坐标；关键点预测模型用于根据输入图像预测输入图像中具有姿态识别作用的关键点的三维坐标。

关键点预测模型用于根据输入的第二样本图像来预测指示人体所呈现姿态的关键点的三维坐标。关键点预测模型可以是基于卷积神经网络、全连接神经网络等构建神经网络构建的模型。在一些实施例中，关键点预测模型的主干网络结构为残差神经网络(Residual neural Network，ResNet)的神经网络，比如，ResNet50网络。

由于一般通过多个关键点来描述人体像素区域所呈现的姿态，因此，步骤240中也是预测多个关键点的预测三维坐标。

在一些实施例中，可以按照设定的第一关键点集合来进行关键点预测，举例来说，若第一关键点集合包括：左手心关键点、左手腕关键点、左手肘关键点和左肩关键点，则步骤240中，通过关键点预测模型预测左手心关键点、左手腕关键点、左手肘关键点和左肩关键点的预测三维坐标。

图4是根据本申请一实施例示出的第二样本图像与基于第一样本图像所构建三维人体模型的示意图。如图4所示，三维人体模型M1是SMPL模型根据第一样本图像T1构建的，第二样本图像S1是对第一样本图像T1中人体像素区域进行部分剪裁得到的。三维人体模型M2是SMPL模型根据第一样本图像T2构建的，第二样本图像S2是对第一样本图像T2中人体像素区域进行部分剪裁得到的。三维人体模型M3是SMPL模型根据第一样本图像T3构建的，第二样本图像S3是对第一样本图像T3中人体像素区域进行部分剪裁得到的。

如图4所示，第二样本图像S1、第二样本图像S2和第二样本图像S3中的人体像素区域(即人体的上半身的人体像素区域)被进行了不同程度的剪裁，从而使得第二样本图像S1-S3中的人体像素区域中的关键点并不完整。而基于第二样本图像S1(或S2、S3)所关联的第一样本图像T1(或T2、T3)构建的三维人体模型M1(或M2、M3)对应的上半身包括的关键点是完整的。

步骤250，根据关键点的三维坐标和关键点的预测三维坐标，计算第一预测损失。

第一预测损失是指根据关键点的三维坐标(相当于关键点的实际三维坐标)和关键点的预测三维坐标，所计算得到关键点预测模型的损失函数的函数值。关键点预测模型的损失函数可以是绝对值损失函数、平方损失函数、指数损失函数等，在此不进行具体限定。

步骤260，根据第一预测损失反向训练关键点预测模型。

在一些实施例中，可以根据第一预测损失，采用梯度下降(Gradient Descent)算法，反向调整关键点预测模型的模型参数，并在梯度小于阈值时停止反向训练。根据第一预测损失反向调整关键点预测模型的参数的过程即为对关键点预测模型的反向训练过程。

在一些实施例中，在一次调整关键点预测模型的模型参数后，使关键点预测模型重新对第二样本图像进行关键点预测，得到为关键点新输出的预测三维坐标，并重新计算第一预测损失，如果第一预测损失可以使关键点预测模型的损失函数收敛，则停止关键点预测模型的反向训练。

在本方案中，将第一样本图像中的人体像素区域进行遮挡处理或者进行剪裁处理，得到第二样本图像，使得相较于第一样本图像的人像像素区域中包括的关键点，第二样本图像中的人体像素区域所包括的关键点并不全；然后将第二样本图像和在通过第一样本图像所构建的三维人体模型中采样到的关键点的三维坐标来对关键点预测模型进行训练，从而，使得该关键点预测模型可以学习到自动补全图像中被遮挡的关键点的能力，从而，即使输入关键点预测模型的图像是表达姿态的多个关键点被部分遮挡的图像，该关键点预测模型也可以准确输出被遮挡关键点的三维坐标，从而，可以保证基于所输出三维坐标所识别出姿态的准确性。

在实际场景中，由于人体可能受到其他物体遮挡或者部分身体不在图像中，导致人体中用于表征姿态的部分关键点并不在输入的图像中，通过本申请提供的关键点预测模型可以适用于在该种场景下预测关键点的三维坐标。

在一些实施例中，若是通过SMPL模型来根据第一样本图像构建三维人体模型，并从三维人体模型中采样确定关键点的三维坐标，可以理解的是，所采样到的关键点来源于所构建三维人体模型的顶点，而三维人体模型中的顶点是按照SMPL模型统一规定的协议确定的，三维人体模型中顶点之间的关系稳定，从而保证从该三维人体模型中采样到多个关键点之间的关系的稳定性，而不需要在训练过程额外增加约束来保证关键点之间的稳定性，便于训练，降低了训练难度。

进一步的，若是基于SMPL模型来构建三维人体模型，所构建到的三维人体模型中包括6890个顶点，提供了足够多的顶点以供进行关键点采样，可以避免出现因三维人体模型提供顶点的数量不全导致模型训练效果不佳的问题，而且，本方案可以适用设定多种数量和多种位置的关键点的场景，适用范围广。

图5A示出了按照相关技术中的关键点预测模型针对输入的目标图像所输出关键点的示意图。如图5A所示，所输入目标图像P1中，人体的手肘关键点被遮挡，相关技术中的关键点预测模型针对该目标图像P1所输出的关键点中，并不包括被遮挡的手肘关键点。

图5B示出按照本方案训练后的关键点预测模型针对输入的目标图像所输出关键点的示意图。如图5B所示，输入图像也是目标图像P1，按照本方案训练后的关键点预测模型所输出的三维关键点中不仅包括目标图像P1中所呈现的关键点，还包括被遮挡的手肘关键点。

可以看出，基于本方案所训练得到的关键点预测模型针对关键点被部分遮挡的图像，可以自动进行关键点补全，从而，可以保证训练后的关键点预测模型所输出关键点的三维坐标可以准确反映所呈现的姿态，表征后续姿态识别的准确性。

在本申请的一些实施例中，在图2的步骤220中，通过SMPL模型进行三维人体构建，在本实施例中，如图6所示，在图2的步骤220之前，该方法还包括：

步骤610，获取第三样本图像和第三样本图像的标注信息。

第三样本图像是指用于训练SMPL模型的样本图像，该第三样本图像中包括人体像素区域。

在一些实施例中，第三样本图像的标注信息包括标注关键点的标注二维坐标和/或标注关键点的标注三维坐标。其中，为便于区分，将在第三样本图像中所标注的关键点称为标注关键点，将为第三样本图像中的标注关键点所标注的二维坐标称为标注二维坐标，将为第三样本图像中的标注关键点所标注的三维坐标称为标注三维坐标。

在本申请的一些实施例中，标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；在本实施例中，第三样本图像中标注关键点的标注三维坐标可以按照图7所示过程得到：

步骤710，获取第三样本图像对应的深度图像。

在一些实施例中，第三样本图像对应的深度图像可以是通过体感设备来采集，体感设备例如Kinect，当然，在其他实施例中，还可以通过其他体感设备来采集得到。

第三样本图像对应的深度图像是指和第三样本图像在相同位置和相同视角下采集到的深度图像，从而，第三样本图像对应的深度图像可以反映第三样本图像中的人体像素区域各像素的深度信息。其中，第三样本图像和第三样本图像所对应的深度图像都是由目标图像采集装置采集得到的。

步骤720，根据深度图像获取标注关键点的深度值。

在深度图像中，各像素的像素值为该像素的深度值，因此，基于所标注的标注关键点在深度图像中所在的像素，从而，将标注关键点在深度图像中所在像素的像素值作为该标注关键点的深度值。

步骤730，根据标注关键点的深度值、目标图像采集装置的内参矩阵和标注关键点的二维坐标，确定标注关键点的标注三维坐标；目标图像采集装置是指采集获得第三样本图像的图像采集装置。

在本申请的一些实施例中，步骤730，包括：根据目标图像采集装置的内参矩阵和标注关键点的深度值，确定标注关键点对应的目标变换矩阵；根据目标变换矩阵，将标注关键点的二维坐标向三维空间进行变换，得到标注关键点的标注三维坐标。

目标图像采集装置的内参矩阵反映的是从三维空间到二维图像的投影关系。标注关键点的二维坐标是在标注关键点在二维平面上的坐标，因此，为了确定标注关键点在三维坐标系中的标注三维坐标，需要借助于图像采集装置的内参矩阵来进行变换。

假设目标图像采集装置的内参矩阵假设为K，其中，内参矩阵K为：

其中，f为焦距，x₀、y₀为目标图像采集装置(例如相机)的焦点(光心)相对于成像平面的坐标。

假设标注关键点L1的二维坐标为(x，y)，从深度图像上获取到该标注关键点L1的深度值为depth，则标注关键点对应的目标变换矩阵K1为：

K1＝defth*K^-1；(公式2)

为了将标注关键点的二维坐标向三维空间进行变换，需要先在标注关键点的二维坐标的基础上，将标注关键点的二维坐标与1进行组合，得到标注关键点L1的初始三维坐标为(x，y，1)，进而，在通过目标变换矩阵过程中，基于目标变换矩阵中的参数来确定标注关键点在第三个坐标轴上的坐标。具体的，可以按照如下的公式3确定该标注关键点L1三维空间中的三维坐标为：

Pt3d＝(x1，y1，z1)＝K1*(x，y，1)；(公式3)

请继续参阅图6，步骤620，由SMPL模型根据第三样本图像进行三维人体模型构建，得到预测三维人体模型。

在本申请中，为便于区分，将SMPL模型根据第三样本图像所建立的三维人体模型称为预测三维人体模型。如上所描述，SMPL模型包括6890个顶点，则SMPL模型根据第三样本图像所建立的预测三维人体模型中对应包括6890个顶点，而且，该预测三维人体模型中的6890个顶点的三维坐标对应确定。

步骤630，根据预测三维人体模型和第三样本图像的标注信息，计算第二预测损失。

步骤640，根据第二预测损失反向训练SMPL模型。

第二预测损失是指基于预测三维人体模型和第三样本图像的标注信息所计算得到SML模型的损失函数的函数值。SMPL模型的损失函数可以是平方损失函数、指数损失函数等，在此不进行具体限定等，在此不进行具体限定。

在一些实施例中，可以根据第二预测损失，采用梯度下降(Gradient Descent)算法，反向调整SMPL模型的模型参数，并在梯度小于阈值时停止反向训练。根据第二预测损失反向调整SMPL模型的模型参数的过程即为对SML模型进行反向训练的过程。

通过如上的训练过程，可以使SMPL模型根据输入的图像建立图像中人体像素区域的人体三维模型。

在一些实施例中，标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；在本实施例中，如图8所示，图6中的步骤630包括：

步骤810，在预测三维人体模型中进行标注关键点采样，得到标注关键点对应的预测三维坐标。

在预测三维人体模型中进行标注关键点采样是指在预测三维人体模型中进行标注关键点定位，从而，将在预测三维人体模型中所定位到标注关键点在三维人体模型中的三维坐标确定为该标注关键点的预测三维坐标。

在一些实施例中，可以设定第二关键点集合，该第二关键点集合包括多个标注关键点，从而在步骤810中根据该第二关键点集合进行标注关键点采样，即在预测三维人体模型中定位第二关键点集合中各个标注关键点，并获取各标注关键点在预测三维人体模型的预测三维坐标。其中，第二关键点集合与上文中的第一关键点集合可以是相同的关键点集合，也可以是不同的关键点集合，在此不进行具体限定。

步骤820，根据目标图像采集装置的内参矩阵，将标注关键点对应的预测三维坐标向第三样本图像所在图像平面进行投影，得到标注关键点在图像平面上的预测二维坐标；目标图像采集装置是指采集获得第三样本图像的图像采集装置。

步骤820相当于是模拟目标图像采集装置采集第三样本图像中涉及的坐标变换过程，根据目标图像采集装置的内参矩阵将标注关键点从三维空间向二维平面进行变换。具体确定标注关键点的预测二维坐标的过程可以参照公式(1)-(3)的反向过程，在此不再赘述。

步骤830，根据标注关键点的标注三维坐标和标注关键点的预测三维坐标，计算三维预测损失。

三维预测损失是指基于参考关键点的三维坐标和标注关键点的三维坐标所计算得到SMPL模型的第一损失函数的函数值。SMPL模型的第一损失函数可以是三维坐标的平方损失函数、指数损失函数等，在此不进行具体限定。

在一些实施例中，SMPL模型的第一损失函数可以全部标注关键点所对应第一欧式距离的加权函数，标注关键点所对应第一欧式距离是指标注关键点对应的标注三维坐标与所对应预测三维坐标之间的欧式距离。

假设第i个标注关键点P_i的标注三维坐标为P_i(3D)，第i个标注关键点P_i的预测三维坐标为P_i(Pred3D)。在该种情况下，SMPL模型的第一损失函数Loss1为：

其中，J为标注关键点的总数量，‖P_i(3D)-P_i(Pred3D)‖表示第i个标注关键点P_i的标注三维坐标与所对应预测三维坐标为P_i(Pred3D)之间的欧式距离；λ_i为第i个标注关键点P_i对应的第一权重系数。

其中，每个标注关键点对应的权重系数可以是相同的，也可以是不同的。在一些实施例中，由于在姿态识别中，某些身体部位上的关键点对于姿态识别的贡献程度更大，从而，可以将该些身体部位上的关键点设定更大的第一权重系数。在一些实施例中，每个关键点对应的第一权重系数可以设定为(1/n)，从而，上述公式4相当于将全部标注关键点的三维坐标与标注三维坐标之间的欧式距离求均值。

步骤840，根据标注关键点的预测二维坐标和标注关键点的标注二维坐标，计算二维预测损失。

二维预测损失是指基于标注关键点的标注二维坐标和标注关键点对应的预测二维坐标所计算得到SMPL模型的第二损失函数的函数值。SMPL模型的第二损失函数可以是基于二维坐标的平方损失函数、指数损失函数等，在此不进行具体限定。

在一些实施例中，SMPL模型的第二损失函数可以全部标注关键点所对应第二欧式距离的加权函数，标注关键点所对应第二欧式距离是指标注关键点对应的标注二维坐标与所对应预测二维坐标之间的欧式距离。假设第i个标注关键点P_i的标注二维坐标为P_i(2D)，第i个标注关键点对应的预测二维坐标为P_i(Pred2D)。在该种情况下，SMPL模型的第二损失函数Loss2为：

其中，‖P_i(2D)-P_i(Pred2D)‖表示第i个标注关键点P_i的标注二维坐标P_i(2D)与所对应预测二维坐标为P_i(Pred2D)之间的欧式距离；μ_i为第i个标注关键点P_i对应的第二权重系数。其中，同一标注关键点对应的第二权重系数可以与所对应的第一权重系数相同，也可以不同，在此不进行具体限定。

同第一权重系数，每个标注关键点对应的权重系数可以是相同的，也可以是不同的。在一些实施例中，由于在姿态识别中某些身体部位上的关键点对于姿态识别的贡献程度更大，从而，可以将该些身体部位上的关键点设定更大的第二权重系数。在一些实施例中，每个关键点对应的第二权重系数可以设定为(1/n)，从而，上述公式5相当于将全部标注关键点的二维坐标与标注二维坐标之间的欧式距离求均值。

步骤850，根据三维预测损失和二维预测损失，计算第二预测损失。

在一些实施例中，可以是将三维预测损失和二维预测损失进行加权求和，将加权求和结果作为第二预测损失。

在一些实施例中，可以是将三维预测损失和二维预测损失中的较大值确定为第二预测损失。

图9是根据本申请一实施例示出的对SMPL模型进行训练的示意图。如图9所示，将第三样本图像输入SMPL模型后，具体包括：

步骤910，构建三维人体模型；通过SMPL模型当前的模型参数进行三维人体模型构建，得到预测三维人体模型，对应的，该预测三维人体模型中各顶点的三维坐标对应确定。

步骤920，标注关键点采样。在预测三维人体模型中进行标注关键点检测和定位，确定标注关键点的预测三维坐标。

步骤930，三维坐标投影；即根据第三样本图像所来源图像采集装置的内参矩阵，将标注关键点的预测三维坐标向垂直于光轴的平面进行投影，得到标注关键点对应的预测二维坐标。

步骤940，计算三维预测损失。具体，根据标注关键点的标注三维坐标和预测三维坐标来计算三维预测损失，计算过程参见上文描述，在此不再赘述。

步骤950，计算二维预测损失。即基于标注关键点的标注二维坐标和预测二维坐标来计算二维预测损失，具体的计算过程参见上文描述，在此不再赘述。

在计算得到三维预测损失和二维预测损失后，根据三维预测损失和二维预测损失反向调整SMPL模型的模型参数。

在本方案中，基于三维预测损失和二维预测损失来确定第二预测损失，从而使标注关键点的标注三维坐标与预测三维坐标之间的欧式距离接近零，同时，使标注关键点的标注二维坐标与预测二维坐标之间的欧式距离接近零。由于结合了标注关键点在二维平面上的二维坐标(标注二维坐标、预测二维坐标)和在三维空间中的三维坐标(标注三维坐标、预测三维坐标)来计算第二预测损失，并基于第二预测损失来反向训练SMPL模型，可以有效提高SMPL模型进行三维人体模型重构所反映关键点的深度值准确性，可以避免相关技术中仅根据样本图像和关键点的二维坐标来训练SMPL模型所导致SMPL模型所存在关键点的深度值准确度不高的问题。

在本申请的一些实施例中，关键点预测模型包括特征提取网络和三个分支网络；其中，一个分支网络用于预测关键点在一个坐标轴上的坐标；预测三维坐标包括所预测到的关键点在三个坐标轴上的坐标；在本实施例中，如图10所示，图2中的步骤240，包括：

步骤1010，通过特征提取网络对第二样本图像进行特征提取，得到第二样本图像的特征图。

在一些实施例中，该特征提取网络可以是通过卷积神经网络构建的。在一具体实施例中，特征提取网络可以是ResNet50网络。其中，分支网络也可以是基于卷积神经网络构建的，在此不进行具体限定。

步骤1020，将特征图分别输入三个分支网络。

步骤1030，由每一分支网络根据特征图进行坐标预测，得到预测关键点在每一分支网络所对应坐标轴上的坐标。

由于每一分支网络用于输出一坐标轴上的坐标，从而，结合每一分支网络所输出对应坐标轴上的坐标，可以得到各预测关键点的预测三维坐标。

图11是根据本申请一实施例示出的关键点预测模型预测关键点的三维坐标的示意图。如图11所示，该关键点预测模型包括ResNet50网络和三个分支网络(分别为x方向卷积分支网络、y方向卷积分支网络和z方向卷积分支网络)。

如图11所示，将第二样本图像输入到ResNet50网络后，由ResNet50网络对第二样本图像进行特征提取，输出第二样本图像的特征图。然后，由x方向卷积分支网络对第二样本图像的特征图进行卷积处理，输出标注关键点在x方向上的坐标；由y方向卷积分支网络对第二样本图像的特征图进行卷积处理，输出标注关键点在y方向上的坐标；由z方向卷积分支网络对第二样本图像的特征图进行卷积处理，输出标注关键点在z方向上的坐标。

在本申请的一些实施例中，分支网络包括均值处理层、基于注意力的残差网络和全连接层；在本实施例中，如图12所示，图10中的步骤1030，包括：

步骤1210，由均值处理层将特征图沿分支网络所对应坐标轴的方向取均值，得到第一中间特征图。

步骤1220，由基于注意力的残差网络对第一中间特征图进行卷积处理，得到第二中间特征图。

在一些实施例中，均值处理层可以是基于平均池化神经网络构建的。在一些实施例中，基于注意力的残差网络可以是残差通道注意力网络(Deep Residual ChannelAttention Networks，RCAN)。

步骤1230，由全连接层根据第二中间特征图输出在分支网络所对应坐标轴上的坐标。

举例来说，若输入的第二样本图像，设定标注关键点的数量为J。通过Renet50网络可以得到第二样本图像的特征图F1，尺度为W*H*C。

对于X方向，将特征图F1沿着X方向取均值，即：W*H*C->W*1，得到X方向上的第一中间特征图F1_x，其尺度为W*1。

同理可以得到Y方向上的第一中间特征图F1_x，尺度为H*1；以及得到Z方向上的第一中间特征图F1_z，尺度为C*1。

之后，通过基于注意力的残差网络对X方向上的第一中间特征图F1_x进行卷积操作，最后通过全连接层输出一个维度为J*1的向量，该维度为J*1的向量用于指示全部标注关键点在X方向的坐标值。同理，可以输出全部标注关键点在Y方向和Z方向上的坐标值。最后，结合X、Y、Z方向所分别对应的全连接网络所输出的向量，得到维度为J*29的矩阵，该维度为J*29的矩阵用于指示29个标注关键点所分别对应的三维坐标。

图13是根据本申请一实施例示出的分支网络预测x方向上坐标的示意图。如图13所示，将第三样本图像的特征图输入到均值处理层中，得到在x方向上的第一中间特征图；然后将x方向上的第一中间特征图输入到基于注意力的残差网络中，由该基于注意力的残差网络输出第二中间特征图；之后，由全连接层对第二中间特征图进行全连接，输出标注关键点在x方向上的坐标。其中，该全连接层的输出维度为J*1，其中，J为标注关键点的总数量。

图14是根据本申请一实施例示出的三维关键点预测方法的流程图，该方法可以由具备处理能力的电子设备执行，该电子设备可以是图1所示的服务端120或终端110，该方法可以由服务端120执行，或者由终端110执行，或者由服务端120和终端110共同执行，在此不进行具体限定。如图14所示，该方法包括：

步骤1410，获取目标图像，目标图像包括人体像素区域。

步骤1420，由关键点预测模型根据目标图像进行三维关键点预测，得到目标三维关键点信息，关键点预测模型是按照上述任一实施例中的关键点预测模型的训练方法训练得到的。

目标图像是指待进行三维关键点预测的图像，该目标图像中包括人体像素区域。通过将目标图像输入到人体像素区域中预测表征人体像素区域所呈现姿态的关键点。

在一些实施例中，该关键点预测模型可以按照图11所示的过程，根据目标图像预测该目标图像中人体像素区域中各关键点的三维坐标。

在本方案中，基于训练后的关键点预测模型，可以向该关键点预测模型输入目标图像，由关键点预测模型根据该目标图像输出目标图像中人体像素区域中关键点的三维坐标，从而便于后续根据所输出关键点的三维坐标识别目标图像中人体像素区域所呈现姿态。而且，由于在训练过程中通过对第一样本图像中的人体像素区域进行部分遮挡或者剪裁处理后得到的第二样本图像来对关键点预测模型进行训练，使该关键点预测模型学习到自动补全图像中被遮挡的关键点的能力，从而，即使目标图像的人体像素区域中存在被遮挡的关键点，该关键点预测模型也可以输出被遮挡关键点的三维坐标。

图15是根据一具体实施示出的进行三维关键点预测的流程图。该方法可以由具备处理能力的电子设备执行，该电子设备可以是图1所示的服务端120或终端110，该方法可以由服务端120执行，或者由终端110执行，或者由服务端120和终端110共同执行，在此不进行具体限定。如图15所示，包括：

步骤1510，获取SMPL模型的训练数据，并对SMPL模型进行训练。

具体的，SMPL模型的数据包括第三样本图像和第三样本图像的标注信息，该标注信息包括在第三样本图像中的人体像素区域中的标注关键点的标注二维坐标和标注三维坐标。其中，标注关键点的标注三维坐标是通过第三样本图像对应的深度图像和第三样本图像中标注关键点的标注二维坐标确定的，具体确定标注三维坐标的过程参见上文描述，在此不再赘述。第三样本图像对应的深度图像可以通过移动的Kinect采集得到。SMPL模型的训练过程参见上文描述，在此不再赘述。

步骤1520，通过SMPL模型根据第一样本图像构建三维人体模型。

步骤1530，在三维人体模型中采样关键点，得到三维关键点信息。

步骤1540，对第一样本图像中人体像素区域进行部分遮挡和/或剪裁处理，得到第二样本图像。

步骤1550，根据第二样本图像和第一样本图像对应的三维关键点信息训练关键点预测模型。

步骤1560，通过训练后的关键点预测模型基于输入的目标图像进行关键点预测，输出关键点的三维坐标。

本申请所提供关键点预测模型的训练方法、以及三维关键点预测方法属于计算计算机视觉理解领域中重要的一个研究方向，通过从输入的图像来预测图像中人体像素区域中关键点的三维坐标，从而可以基于所预测到的三维坐标来推测和理解图像所示出人体中各部分的姿态；进而可以根据所确定的姿态去理解人体的行为动作，从而可以达到比如智能监控、病人监护以及人机交互相关的功能等。

在本申请的一些实施例中，图14中的步骤1420之后，该方法还包括：根据目标三维关键点信息确定目标图像中的人体像素区域所呈现的姿态。

在一些实施例中，在得到目标三维关键点信息后，可以顺次将目标三维关键点信息所指示的关键点进行连接，得到姿态树，并根据姿态树来识别目标图像中的人体像素区域所呈现的姿态。

本方案所提供的三维关键点的预测方法可以应用于比如智能视频监控、病人监护系统、人机交互、虚拟现实、人体动画、智能家居、智能安防、运动员辅助训练等领域，基于该三维关键点的预测方法来确定输入的目标图像中的人体像素区域所呈现的姿态。

举例来说，若在智能家居系统中可以基于姿态(例如手势)来进行智能家居控制，则在按照本申请的方法确定目标图像中的人体像素区域所呈现的姿态后，确定该姿态对应的控制指令，进而向对应的智能家居设备发送该所识别出姿态对应的控制指令。

在一些实施例中，本申请所提供的三维关键点的预测方法可以应用于人机交互场景。在人机交互场景下，通过电子设备识别真实人体的姿态，进而根据所识别出的姿态控制虚拟对象(例如虚拟人体模型、虚拟人等)模仿真实人体的姿态，实现用户在虚拟场景(例如游戏)中的体感互动。

在本实施例中，图14中的步骤1420之后，该方法还包括：根据多个目标三维关键点信息，控制虚拟对象模拟目标图像中的人体像素区域所呈现的姿态。通过驱动虚拟对象模拟用户本人的姿态，可以避免用户本人直接暴露在画面中，同时又可以让别人看到用户表达的姿态。

图16A-16C是根据本申请一实施例示出的基于真实用户的姿态控制虚拟对象的示意图。在面向用户采集到目标图像(即图16A所示的目标图像)，将目标图像输入到关键点预测模型，由关键点预测模型基于目标图像进行三维关键点预测，输出目标三维关键点信息。图16B示出了基于目标三维关键点信息所指示关键点在三维坐标系中的显示示意图，可以看出，将图16B所示出各关键点顺次连接所形成的姿态树表达的姿态与图16A所示图像中的人体像素区域所呈现的姿态是相同的。之后，可以根据目标三维关键点信息控制虚拟对象来模拟目标图像中的人体像素区域所呈现的姿态。图16C示出了虚拟对象基于目标三维关键点信息所模拟姿态的示意图，可以看出，该虚拟对象所模拟出的姿态与目标图像中的人体像素区域所呈现的姿态也是相同的。

进一步的，图16D示出了SMPL模型基于图16A所示的目标图像构建的三维人体模型的示意图，其中，图16D分别示出了所构建三维人体模型在两个视角下的示意图，可以看出，图16D中三维人体模型所呈现的姿态也是与图16A的目标图像所呈现的姿态是相同的。

在一些实施例中，本申请的方案还可以应用于游戏场景中，例如，在设备的用户界面中显示游戏人物的姿态，以使用户基于用户界面中所显示游戏人物的姿态进行模仿，通过图像采集装置采集用户图像，基于关键点预测模型识别用户图像中的三维关键点信息，并基于三维关键点信息确定用户图像中用户所呈现姿态与用户界面中游戏人物所呈现姿态的相似度，进而根据相似度进行姿态打分等。

在一些实施例中，本方案还可以应用于与智能机器人进行动作交互。智能机器人中设置有图像采集装置及处理器，图像采集装置能够采集智能机器人的前方区域的图像，处理器可以基于采集的图像，通过关键点预测模型进行三维关键点预测，得到目标三维关键点信息，并根据目标三维关键点信息所指示关键点的坐标，识别图像中用户的姿态；若识别出用户的姿态是预设姿态时，控制智能机器人做出预设响应，例如，当识别出用户的姿态是挥手姿态时，控制智能机器人做出欢迎动作。

在一些实施例中，本申请的方案还可以应用于无人驾驶场景，在该种场景下，车载终端上可以部署图像采集装置，以采集无人驾驶车辆在行驶过程中前方的图像，然后由车载终端中的处理器来通过关键点预测模型对采集到的图像进行三维关键点预测，得到目标三维关键点信息，进而根据目标三维关键点信息确定车辆前方是否有人，其后，根据识别结果控制无人驾驶车辆的动作，例如停车等。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的方法。对于本申请装置实施例中未披露的细节，请参照本申请上述方法实施例。

图17是根据本申请一实施例示出的关键点预测模型的训练装置的框图，如图17所示，该关键点预测模型的训练装置包括：样本图像对获取模块1710，用于获取样本图像对，样本图像对包括第一样本图像和第二样本图像，第二样本图像是对第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的；第一三维人体构建模块1720，用于根据第一样本图像进行三维人体构建，得到三维人体模型；第一采样模块1730，用于在三维人体模型中进行关键点采样，得到关键点的三维坐标，关键点的三维坐标用于确定人体像素区域呈现的姿态；第一预测模块1740，用于由关键点预测模型根据第二样本图像进行关键点预测，得到关键点的预测三维坐标；关键点预测模型用于根据输入图像预测输入图像中具有姿态识别作用的关键点的三维坐标；第一预测损失计算模块1750，用于根据关键点的三维坐标和关键点的预测三维坐标，计算第一预测损失；第一反向训练模块1760，用于根据第一预测损失反向训练关键点预测模型。

在本申请的一些实施例中，三维人体模型是通过多人线性蒙皮SMPL模型构建的；在本实施例中，关键点预测模型的训练装置，还包括：第二获取模块，用于获取第三样本图像和第三样本图像的标注信息；模型构建模块，用于由SMPL模型根据第三样本图像进行三维人体模型构建，得到预测三维人体模型；第二预测损失计算模块，用于根据预测三维人体模型和第三样本图像的标注信息，计算第二预测损失；第二反向训练模块，用于根据第二预测损失反向训练SMPL模型。

在本申请的一些实施例中，标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；第二预测损失计算模块，包括：采样单元，用于在预测三维人体模型中进行标注关键点采样，得到标注关键点对应的预测三维坐标；预测二维坐标确定单元，用于根据目标图像采集装置的内参矩阵，将标注关键点对应的预测三维坐标向第三样本图像所在图像平面进行投影，得到标注关键点在图像平面上的预测二维坐标；目标图像采集装置是指采集获得第三样本图像的图像采集装置；三维预测损失计算单元，用于根据标注关键点的标注三维坐标和标注关键点的预测三维坐标，计算三维预测损失；二维预测损失计算单元，用于根据标注关键点的预测二维坐标和标注关键点的标注二维坐标，计算二维预测损失；第二预测损失计算单元，用于根据三维预测损失和二维预测损失，计算第二预测损失。

在本申请的一些实施例中，标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；关键点预测模型的训练装置还包括：深度图像获取模块，用于获取第三样本图像对应的深度图像；深度值获取模块，用于根据深度图像获取标注关键点的深度值；三维坐标确定模块，用于根据标注关键点的深度值、目标图像采集装置的内参矩阵和标注关键点的二维坐标，确定标注关键点的标注三维坐标；目标图像采集装置是指采集获得第三样本图像的图像采集装置。

在本申请的一些实施例中，三维坐标确定模块，包括：目标变换矩阵确定单元，用于根据目标图像采集装置的内参矩阵和标注关键点的深度值，确定标注关键点对应的目标变换矩阵；标注三维坐标确定单元，用于根据目标变换矩阵，将标注关键点的二维坐标向三维空间进行变换，得到标注关键点的标注三维坐标。

在本申请的一些实施例中，关键点预测模型包括特征提取网络和三个分支网络；其中，一个分支网络用于预测关键点在一个坐标轴上的坐标；预测三维坐标包括所预测到的关键点在三个坐标轴上的坐标；在本实施例中，图17中的第一预测模块1740，包括：特征提取单元，用于通过特征提取网络对第二样本图像进行特征提取，得到第二样本图像的特征图；输入单元，用于将特征图分别输入三个分支网络；坐标输出单元，用于由每一分支网络根据特征图进行坐标预测，得到预测关键点在每一分支网络所对应坐标轴上的坐标。

在本申请的一些实施例中，分支网络包括均值处理层、基于注意力的残差网络和全连接层；在本实施例中，坐标输出单元，包括：均值处理单元，用于由均值处理层将特征图沿分支网络所对应坐标轴的方向取均值，得到第一中间特征图；卷积处理单元，用于由基于注意力的残差网络对第一中间特征图进行卷积处理，得到第二中间特征图；全连接输出单元，用于由全连接层根据第二中间特征图输出在分支网络所对应坐标轴上的坐标。

图18是根据本申请一实施例示出的三维关键点预测装置的框图，如图18所示，该三维关键点预测装置包括：目标图像获取模块1810，用于获取目标图像，目标图像包括人体像素区域；第二预测模块1820，用于由关键点预测模型根据目标图像进行三维关键点预测，得到目标三维关键点信息，关键点预测模型是按照如上任一实施例中的关键点预测模型的训练方法训练得到的。

在本申请的一些实施例中，三维关键点预测装置还包括：姿态确定模块，用于根据目标三维关键点信息确定目标图像中的人体像素区域所呈现的姿态。

在本申请的一些实施例中，三维关键点预测装置，还包括：虚拟对象控制模块，用于根据目标三维关键点信息，控制虚拟对象模拟目标图像中的人体像素区域所呈现的姿态。

图19示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图19示出的电子设备的计算机系统1900仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图19所示，计算机系统1900包括处理器，该处理器可以是中央处理单元(Central Processing Unit，CPU)1901，其可以根据存储在只读存储器(Read-OnlyMemory，ROM)1902中的程序或者从存储部分1908加载到随机访问存储器(Random AccessMemory，RAM)1903中的程序而执行各种适当的动作和处理，例如执行上述实施例中的方法。在RAM 1903中，还存储有系统操作所需的各种程序和数据。CPU1901、ROM1902以及RAM 1903通过总线1904彼此相连。输入/输出(Input/Output，I/O)接口1905也连接至总线1904。

在一些实施例中，以下部件可以连接至I/O接口1905：包括键盘、鼠标等的输入部分1906；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid CrystalDisplay，LCD)等以及扬声器等的输出部分1907；包括硬盘等的存储部分1908；以及包括诸如LAN(Local Area Network，局域网)卡、调制解调器等的网络接口卡的通信部分1909。通信部分1909经由诸如因特网的网络执行通信处理。驱动器1910也根据需要连接至I/O接口1905。可拆卸介质1911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1910上，以便于从其上读出的计算机程序根据需要被安装入存储部分1908。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1909从网络上被下载和安装，和/或从可拆卸介质1911被安装。在该计算机程序被中央处理单元(CPU)1901执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令，当该计算机可读存储指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请的一个方面，还提供了一种电子设备，其包括：处理器；存储器，存储器上存储有计算机可读指令，计算机可读指令被处理器执行时，实现上述任一实施例中的方法。

根据本申请实施例的一个方面，提供了计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行上述任一实施例中的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种关键点预测模型的训练方法，其特征在于，包括：

获取样本图像对，所述样本图像对包括第一样本图像和第二样本图像，所述第二样本图像是对所述第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的；

根据所述第一样本图像进行三维人体构建，得到三维人体模型；

在所述三维人体模型中进行关键点采样，得到关键点的三维坐标，所述关键点的三维坐标用于确定所述人体像素区域呈现的姿态；

由关键点预测模型根据所述第二样本图像进行关键点预测，得到关键点的预测三维坐标；所述关键点预测模型用于根据输入图像预测所述输入图像中具有姿态识别作用的关键点的三维坐标；

根据所述关键点的三维坐标和所述关键点的预测三维坐标，计算第一预测损失；

根据所述第一预测损失反向训练所述关键点预测模型。

2.根据权利要求1所述的方法，其特征在于，所述三维人体模型是通过多人线性蒙皮SMPL模型构建的；

所述根据所述第一样本图像进行三维人体构建，得到三维人体模型之前，所述方法还包括：

获取第三样本图像和所述第三样本图像的标注信息；

由所述SMPL模型根据所述第三样本图像进行三维人体模型构建，得到预测三维人体模型；

根据所述预测三维人体模型和所述第三样本图像的标注信息，计算第二预测损失；

根据所述第二预测损失反向训练所述SMPL模型。

3.根据权利要求2所述的方法，其特征在于，所述标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；

所述根据所述预测三维人体模型和所述第三样本图像的标注信息，计算第二预测损失，包括：

在所述预测三维人体模型中进行标注关键点采样，得到标注关键点对应的预测三维坐标；

根据目标图像采集装置的内参矩阵，将所述标注关键点对应的预测三维坐标向所述第三样本图像所在图像平面进行投影，得到所述标注关键点在所述图像平面上的预测二维坐标；所述目标图像采集装置是指采集获得所述第三样本图像的图像采集装置；

根据所述标注关键点的标注三维坐标和所述标注关键点的预测三维坐标，计算三维预测损失；

根据所述标注关键点的预测二维坐标和所述标注关键点的标注二维坐标，计算二维预测损失；

根据所述三维预测损失和所述二维预测损失，计算所述第二预测损失。

4.根据权利要求2所述的方法，其特征在于，所述标注信息包括标注关键点的标注二维坐标和标注关键点的标注三维坐标；

所述获取第三样本图像和所述第三样本图像的标注信息之前，所述方法还包括：

获取所述第三样本图像对应的深度图像；

根据所述深度图像获取标注关键点的深度值；

根据所述标注关键点的深度值、目标图像采集装置的内参矩阵和所述标注关键点的二维坐标，确定所述标注关键点的标注三维坐标，所述目标图像采集装置是指采集获得所述第三样本图像的图像采集装置。

5.根据权利要求4所述的方法，其特征在于，所述根据所述标注关键点的深度值、目标图像采集装置的内参矩阵和所述标注关键点的二维坐标，确定所述标注关键点的标注三维坐标，包括：

根据所述目标图像采集装置的内参矩阵和所述标注关键点的深度值，确定所述标注关键点对应的目标变换矩阵；

根据所述目标变换矩阵，将所述标注关键点的二维坐标向三维空间进行变换，得到所述标注关键点的标注三维坐标。

6.根据权利要求1所述的方法，其特征在于，所述关键点预测模型包括特征提取网络和三个分支网络；其中，一个分支网络用于预测关键点在一个坐标轴上的坐标；所述预测三维坐标包括所预测到的关键点在三个坐标轴上的坐标；

所述由关键点预测模型根据所述第二样本图像进行关键点预测，得到关键点的预测三维坐标，包括：

通过所述特征提取网络对所述第二样本图像进行特征提取，得到所述第二样本图像的特征图；

将所述特征图分别输入所述三个分支网络；

由每一所述分支网络根据所述特征图进行坐标预测，得到所述关键点在每一分支网络所对应坐标轴上的坐标。

7.根据权利要求6所述的方法，其特征在于，所述分支网络包括均值处理层、基于注意力的残差网络和全连接层；

所述由每一所述分支网络根据所述特征图进行坐标预测，得到在每一分支网络所对应坐标轴上的坐标，包括：

由所述均值处理层将所述特征图沿所述分支网络所对应坐标轴的方向取均值，得到第一中间特征图；

由所述基于注意力的残差网络对所述第一中间特征图进行卷积处理，得到第二中间特征图；

由所述全连接层根据所述第二中间特征图输出在所述分支网络所对应坐标轴上的坐标。

8.一种三维关键点预测方法，其特征在于，包括：

获取目标图像，所述目标图像包括人体像素区域；

由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息，所述关键点预测模型是按照如权利要求1-7中任一项所述的方法训练得到的。

9.根据权利要求8所述的方法，其特征在于，所述由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息之后，所述方法还包括：

根据所述目标三维关键点信息确定所述目标图像中的人体像素区域所呈现的姿态。

10.根据权利要求8所述的方法，其特征在于，所述由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息之后，所述方法还包括：

根据所述目标三维关键点信息，控制虚拟对象模拟所述目标图像中的人体像素区域所呈现的姿态。

11.一种关键点预测模型的训练装置，其特征在于，包括：

样本图像对获取模块，用于获取样本图像对，所述样本图像对包括第一样本图像和第二样本图像，所述第二样本图像是对所述第一样本图像中的人体像素区域进行部分遮挡处理或者剪裁处理后得到的；

第一三维人体构建模块，用于根据所述第一样本图像进行三维人体构建，得到三维人体模型；

第一采样模块，用于在所述三维人体模型中进行关键点采样，得到关键点的三维坐标，所述关键点的三维坐标用于确定所述人体像素区域呈现的姿态；

第一预测模块，用于由关键点预测模型根据所述第二样本图像进行关键点预测，得到关键点的预测三维坐标；所述关键点预测模型用于根据输入图像预测所述输入图像中具有姿态识别作用的关键点的三维坐标；

第一预测损失计算模块，用于根据所述关键点的三维坐标和所述关键点的预测三维坐标，计算第一预测损失；

第一反向训练模块，用于根据所述第一预测损失反向训练所述关键点预测模型。

12.一种三维关键点预测装置，其特征在于，包括：

目标图像获取模块，用于获取目标图像，所述目标图像包括人体像素区域；

第二预测模块，用于由关键点预测模型根据所述目标图像进行三维关键点预测，得到目标三维关键点信息，所述关键点预测模型是按照如权利要求1-7中任一项所述的方法训练得到的。

13.一种电子设备，其特征在于，包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机可读指令，其特征在于，当所述计算机可读指令被处理器执行时，实现如权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-10中任一项所述的方法。