CN114973424A

CN114973424A - 特征提取模型训练、手部动作识别方法、装置及电子设备

Info

Publication number: CN114973424A
Application number: CN202210913538.6A
Authority: CN
Inventors: 梁书玉; 周波; 莫少锋; 邹小刚; 苗瑞
Original assignee: Shenzhen HQVT Technology Co Ltd
Current assignee: Shenzhen HQVT Technology Co Ltd
Priority date: 2022-08-01
Filing date: 2022-08-01
Publication date: 2022-08-30

Abstract

本申请提供一种特征提取模型训练、手部动作识别方法、装置及电子设备。方法包括：获取至少一帧目标图像；将至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧目标图像中包括的目标关键点对应的三维结构图；目标关键点包括：手部的关键点；三维结构图特征提取模型为采用特征提取模型训练方法训练得到的；三维结构图包括：在三维坐标系下，目标图像中包括的各目标关键点之间的连接关系；根据各帧目标图像中包括的目标关键点对应的三维结构图，获取至少一帧目标图像对应的动作类型。本申请提高了手部动作识别效率。

Description

特征提取模型训练、手部动作识别方法、装置及电子设备

技术领域

本申请涉及计算机技术，尤其涉及一种特征提取模型训练、手部动作识别方法、装置及电子设备。

背景技术

在虚拟现实（Virtual Reality，VR）场景中，VR设备可以捕捉人手部动作，进行动作识别。例如，VR设备可以识别人的动作是在倒水、写字、拿手机等。或者，以智能监控设备为例，该智能监控设备也可以对拍摄到的人的手部动作进行识别，并执行人的手部动作对应的操作。

现有的手部动作识别方法例如有：基于手部光流图像的动作识别、基于三维（3-dimension，3D）卷积的动作识别等。然而，上述现有的手部动作识别方法存在效率较低的问题。

发明内容

本申请提供一种特征提取模型训练、手部动作识别方法、装置及电子设备，以提高手部动作识别效率。

第一方面，本申请提供特征提取模型训练方法，包括：

获取第一样本数据集；所述第一样本数据集包括：至少一个第一样本数据子集；所述第一样本数据子集包括：样本图像，以及，所述样本图像中包括的目标关键点对应的三维结构图标签；所述目标关键点包括：手部的关键点；所述三维结构图包括：在三维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系；

使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型；所述第一预设模型包括：第一预设子模型、第二预设子模型，以及，第三预设子模型；所述第一预设子模型用于对所述样本图像进行特征提取，得到所述样本图像中的各目标关键点对应的初始二维结构图，以及，各目标关键点对应的图像特征；所述第二预设子模型用于根据所述各目标关键点对应的图像特征，对所述各目标关键点对应的初始二维结构图进行调整，得到所述各目标关键点对应的目标二维结构图；所述二维结构图包括：在二维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系；所述第三预设子模型用于将所述各目标关键点对应的目标二维结构图转换为三维结构图；所述三维结构图特征提取模型用于根据输入的目标图像，获取所述目标图像中包括的目标关键点对应的三维结构图。

可选的，所述目标关键点还包括：所述手部所持物体的关键点。

可选的，所述获取第一样本数据集，包括：

获取至少一个初始样本图像；

通过预设的图像分割模型，对所述初始样本图像进行图像分割，得到手部与所述手部所持物体的图像；

将所述手部与所述手部所持物体的图像，作为所述样本图像；

根据所述样本图像，以及，所述样本图像中包括的目标关键点对应的三维结构图标签，获取所述第一样本数据集。

可选的，所述第二预设子模型，以及，所述第三预设子模型均包括至少一层图卷积层；所述图卷积层对应的图卷积公式中包括：参数化可训练邻接矩阵，所述使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型，包括：

在使用所述第一样本数据集，对所述第一预设模型进行每一轮训练过程中，更新所述参数化可训练邻接矩阵中的参数，直到得到所述三维结构图特征提取模型。

可选的，所述第一预设模型的损失函数为所述第一预设子模型对应的第一子损失函数、所述第二预设子模型对应的第二子损失函数，以及，所述第三预设子模型对应的第三子损失函数的加权和。

可选的，在所述使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型之前，所述方法还包括：

获取第二样本数据集；所述第二样本数据集包括：至少一个第二样本数据子集；所述第二样本数据子集包括：样本图像，以及，所述样本图像中包括的目标关键点对应的二维结构图标签；

使用所述第二样本数据集训练第一初始模型，得到所述第一预设子模型；

获取第三样本数据集；所述第三样本数据集包括：至少一个第三样本数据子集；所述第三样本数据子集包括：将样本图像输入所述第一预设子模型得到的所述样本图像中的各目标关键点对应的初始二维结构图、各目标关键点对应的图像特征，以及，所述样本图像中包括的目标关键点对应的二维结构图标签；

使用所述第三样本数据集训练第二初始模型，得到所述第二预设子模型；

根据所述第一预设子模型，以及，所述第二预设子模型，得到所述第一预设模型。

第二方面，本申请提供一种手部动作识别方法，所述方法包括：

获取至少一帧目标图像；

将所述至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧所述目标图像中包括的目标关键点对应的三维结构图；所述目标关键点包括：手部的关键点；所述三维结构图特征提取模型为采用如第一方面任一项所述的方法训练得到的；所述三维结构图包括：在三维坐标系下，所述目标图像中包括的各目标关键点之间的连接关系；

根据所述各帧所述目标图像中包括的目标关键点对应的三维结构图，获取所述至少一帧目标图像对应的动作类型。

可选的，所述获取至少一帧目标图像包括：

获取至少一帧初始图像；

通过预设的图像分割模型，对所述初始图像进行图像分割，得到手部与所述手部所持物体的图像；

将所述手部与所述手部所持物体的图像，作为所述目标图像。

可选的，所述根据所述各帧所述目标图像中包括的目标关键点对应的三维结构图，获取所述至少一帧目标图像对应的动作类型，包括：

针对任意相邻的两帧目标图像对应的三维结构图，建立该两个三维结构图中相同标识的目标关键点之间的连接关系，得到所述至少一帧目标图像对应的一个三维结构图；

将所述至少一帧目标图像对应的一个三维结构图，输入预先训练好的手部动作识别模型，得到所述至少一帧目标图像对应的动作类型。

可选的，在所述获取所述至少一帧目标图像对应的动作类型之后，所述还包括：

执行所述动作类型对应的目标操作。

第三方面，本申请提供一种特征提取模型训练装置，所述装置包括：

获取模块，用于获取第一样本数据集；所述第一样本数据集包括：至少一个第一样本数据子集；所述第一样本数据子集包括：样本图像，以及，所述样本图像中包括的目标关键点对应的三维结构图标签；所述目标关键点包括：手部的关键点；所述三维结构图包括：在三维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系；

训练模块，用于使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型；所述第一预设模型包括：第一预设子模型、第二预设子模型，以及，第三预设子模型；所述第一预设子模型用于对所述样本图像进行特征提取，得到所述样本图像中的各目标关键点对应的初始二维结构图，以及，各目标关键点对应的图像特征；所述第二预设子模型用于根据所述各目标关键点对应的图像特征，对所述各目标关键点对应的初始二维结构图进行调整，得到所述各目标关键点对应的目标二维结构图；所述二维结构图包括：在二维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系；所述第三预设子模型用于将所述各目标关键点对应的目标二维结构图转换为三维结构图；所述三维结构图特征提取模型用于根据输入的目标图像，获取所述目标图像中包括的目标关键点对应的三维结构图。

第四方面，本申请提供一种手部动作识别装置，所述装置包括：

获取模块，用于获取至少一帧目标图像；

第一处理模块，用于将所述至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧所述目标图像中包括的目标关键点对应的三维结构图；所述目标关键点包括：手部的关键点；所述三维结构图特征提取模型为采用如第一方面任一项所述的方法训练得到的；所述三维结构图包括：在三维坐标系下，所述目标图像中包括的各目标关键点之间的连接关系；

第二处理模块，用于根据所述各帧所述目标图像中包括的目标关键点对应的三维结构图，获取所述至少一帧目标图像对应的动作类型。

第五方面，本申请提供一种电子设备，包括：至少一个处理器、存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行第一方面和第二方面任一项所述的方法。

第六方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现第一方面和第二方面任一项所述的方法。

本申请提供的特征提取模型训练、手部动作识别方法、装置及电子设备，通过包括了样本图像和样本图像中的目标关键点对应的三维结构图标签的第一样本数据集对第一预设模型进行训练，可以得到三维结构图特征提取模型。在后续使用该三维结构图特征提取模型时，可以通过该三维结构图特征提取模型，获取目标图像中包括的目标关键点对应的三维结构图，并基于该三维结构图进行手部动作识别。通过上述方法可以训练得到三维结构图特征提取模，使得本申请提供的手部动作识别方法不需基于光流图像且不需对视频流进行3D卷积操作，提高了手部动作识别的效率。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种手部动作识别方法的应用场景示意图；

图2为本申请提供的一种特征提取模型训练方法的流程示意图；

图3为本申请提供的一种手部关键点的示意图；

图4为本申请提供的一种的目标关键点对应的三维结构图的示意图；

图5为本申请提供的一种第一预设模型的架构示意图；

图6为本申请提供的一种自适应图U-net的结构示意图；

图7为本申请提供的一种自适应图池化方法的流程示意图；

图8为本申请提供的一种手部动作识别方法的流程示意图；

图9为本申请提供的一种三维结构图的示意图；

图10为本申请提供的另一种手部动作识别方法的流程示意图；

图11为本申请提供的一种特征提取模型训练装置的结构示意图；

图12为本申请提供的一种手部动作识别装置的结构示意图；

图13为本申请提供的一种电子设备结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一种手部动作识别方法的应用场景示意图。如图1所示，智能监控设备可以拍摄包括用户手部的图像，并将该图像发送至服务器。服务器可以基于该图像对该用户进行手部动作识别，确定该用户当前的手部动作类型。示例性的，如图1所示，该服务器根据智能监控设备采集的图像，例如可以确定该用户当前的手部动作类型为：正在操作手机。

在一些实施例中，该服务器可以将手部动作识别结果反馈至该智能监控设备，以使该智能监控设备可以根据该用户当前的手部动作类型，执行该手部动作类型对应的操作。例如，若该智能监控设备在连续预设时长均确定用户当前的手部动作类型为正在操作手机，则智能监控设备可以输出用于提醒用户注意保护眼睛的提示信息。

或者，在一些实施例中，如图1所示，该服务器还可以将手部动作识别结果反馈至例如手机、平板电脑等用户终端。用户可以通过该用户终端查看该手部动作识别结果。或者，该用户终端还可以根据手部动作识别结果执行相应的操作，在此不再赘述。

下面为目前现有的两种手部动作识别方法：

1、基于双流架构的手部动作识别方法。在通过该方法进行手部动作识别时，首先需要构建包括两个通道的双流网络。该双流网络的其中一个通道是RGB图像通道。基于该RGB图像，可以对该RGB图像对应的空间信息进行建模。该双流网络的另一个通道是光流图像通道。光流图像是根据多帧RGB图像计算得到。基于上述光流图像，以及，对应的RGB图像，可以进行手部动作识别。

然而，根据多帧RGB图像计算光流图像的过程需要耗费较多时间，因此，通过该方法进行手部动作识别的效率较低。

2、基于3D卷积的手部动作识别。在通过该方法进行手部动作时，服务器首先需要获取一段视频流，然后采用3D卷积（例如级联递归神经网络）中的3D过滤器，对该视频流进行3D卷积操作，进而获取该视频流对应的手部动作识别结果。

然而，因为3D卷积的维度相较于二维卷积维度的增加，使得卷积过滤器的数量增加。也就是说，通过上述方法进行手部动作识别过程中需要计算较多的卷积结果。因此，通过该方法进行手部动作识别的效率也较低。

考虑到现有的手部动作识别方法存在上述效率较低的问题的原因是需要对多种图像进行处理或者对视频流进行3D卷积操作，因此，本申请提出了不需光流图像且不需对视频流进行3D卷积操作的手部动作识别方法，以提高手部动作识别的效率。

应理解，本申请对上述手部动作识别的应用场景并不进行限定。示例性的，该手部动作识别方法例如还可以应用于虚拟现实（Virtual Reality，VR）等场景中，以提高VR显示的效率。

在进行手部动作识别之前，本申请通过训练第一预设模型可以得到三维结构图特征提取模型。可选的，该特征提取模型训练方法的执行主体例如可以为终端或者服务器等任意一种具有处理功能的电子设备。下面结合具体地实施例对本申请的提供的特征提取模型训练技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图2为本申请提供的一种特征提取模型训练方法的流程示意图。如图2所示，该方法包括以下步骤：

S101、获取第一样本数据集。

上述第一样本数据集可以包括：至少一个第一样本数据子集。其中，针对每个第一样本数据子集，可以包括：样本图像，以及，样本图像中包括的目标关键点对应的三维结构图标签。可选的，该目标关键点可以包括：手部的关键点。示例性的，上述样本图像可以为RGB图像。

示例性的，图3为本申请提供的一种手部关键点的示意图。如图3所示，作为一种可能的实现方式，手部可以包括21个目标关键点。应理解，图3仅是一种目标关键点的示例，本申请对手部可包括的目标关键点的数量并不进行限定。

上述三维结构图可以包括：在三维坐标系下，上述样本图像中包括的各目标关键点之间的连接关系。示例性的，仍然以图3中所示的手部关键点为例，目标关键点1与目标关键点2之间存在连接关系。示例性的，上述三维坐标系其中两个坐标轴所在平面可以为样本图像所在二维平面，另一坐标轴可以为垂直于该样本图像所在二维平面的轴。该三维坐标系的坐标原点例如可以为样本图像所在图像坐标系的原点。

示例性的，上述电子设备例如可以通过图形用户界面（Graphical UserInterface，GUI），或者，应用程序接口（Application Programming Interface，API）等接收用户输入的上述第一样本数据集。

S102、使用第一样本数据集训练第一预设模型，得到三维结构图特征提取模型。

上述第一预设模型可以包括：第一预设子模型、第二预设子模型，以及，第三预设子模型。其中，第一预设子模型，可以用于对样本图像进行特征提取，得到样本图像中的各目标关键点对应的初始二维结构图，以及，各目标关键点对应的图像特征。

第二预设子模型，可以用于根据各目标关键点对应的图像特征，对上述各目标关键点对应的初始二维结构图进行调整，得到各目标关键点对应的目标二维结构图。其中，上述二维结构图可以包括：在二维坐标系下，样本图像中包括的各目标关键点之间的连接关系。可选的，该二维坐标系例如可以为样本图像的图像坐标系。

第三预设子模型，可以用于将各目标关键点对应的目标二维结构图转换为三维结构图。

上述三维结构图特征提取模型可以用于根据输入的目标图像，获取目标图像中包括的目标关键点对应的三维结构图。

在本实施例中，通过包括了样本图像和样本图像中的目标关键点对应的三维结构图标签的第一样本数据集对第一预设模型进行训练，可以得到三维结构图特征提取模型。在后续使用该三维结构图特征提取模型时，可以通过该三维结构图特征提取模型，获取目标图像中包括的目标关键点对应的三维结构图，并基于该三维结构图进行手部动作识别。通过上述方法可以训练得到三维结构图特征提取模，使得本申请提供的手部动作识别方法不需基于光流图像且不需对视频流进行3D卷积操作，提高了手部动作识别的效率。

作为一种可能的实现方式，上述目标关键点还可以包括：手部所持物体的关键点。示例性的，上述手部所持物体例如可以为杯子、笔、手机、书等任何一种物体。通过将手部所持物体的关键点也作为目标关键点，使得在对第一预设模型过程中，通过手部所持物体的关键点信息约束手部关键点在三维结构图中的信息，提高了三维结构图特征提取模型的准确性，进而提高了基于该三维结构图特征提取模型进行手部动作识别的准确性。

在该实现方式下，可选的，电子设备例如可以通过下述步骤获取第一样本数据集。首先，电子设备可以获取至少一个初始样本图像。然后，电子设备可以通过预设的图像分割模型，对该初始样本图像进行图像分割，得到手部与手部所持物体的图像，并将该手部与手部所持物体的图像，作为样本图像。示例性的，上述预设的图像分割模型例如可以为手部分割网络（Hand Segment Net，HandSegNet）模型。

然后，电子设备可以根据该样本图像，以及，样本图像中包括的目标关键点对应的三维结构图标签，获取前述第一样本数据集。示例性的，以目标关键点还包括手部所持物体的关键点为例，图4为本申请提供的一种的目标关键点对应的三维结构图的示意图。如图4所示，该三维结构图可以包括手部关键点之间的连接关系，以及，手部所持物体的关键点之间的连接关系。

在本实施例中，相较于现有的手部动作识别方法均是将手和手触摸的物体作为两个独立的个体，并没有考虑手的动作与手所抓物体的相关性的缺陷，本申请通过将手部所持物体的关键点也作为目标关键点得到第一样本数据集，将手和手部所持物体的姿态是高度相关的事实考虑在内。使用该样本数据集对第一预设模型进行训练，提高了三维结构图特征提取模型的准确性，进而提高了基于该三维结构图特征提取模型进行手部动作识别的准确性。

下面对电子设备如何使用第一样本数据集训练第一预设模型，得到三维结构图特征提取模型，进行详细说明：

作为一种可能的实现方式，上述第二预设子模型，以及，第三预设子模型可以均包括至少一层图卷积层。其中，该图卷积层对应的图卷积公式中可以包括：参数化可训练邻接矩阵。在该实现方式下，电子设备可以在使用第一样本数据集，对第一预设模型进行每一轮训练过程中，更新参数化可训练邻接矩阵中的参数，直到得到三维结构图特征提取模型。

应理解，本申请对上述第二预设子模型的图卷积层的数量，以及，第三预设子模型的图卷积层的数量并不进行限定。此外，本申请对第二预设子模型中除了图卷积层之外是否还包括其他层，以及，第三预设子模型中除了图卷积层之外是否还包括其他层，均不进行限定。示例性的，该第三预设子模型中例如还可以包括图池化层、反池化层等。

示例性的，对于第二预设子模型和第三预设子模型中的任一图卷积层，图卷积层对应的图卷积公式例如可以如下公式（1）所示：

（1）

其中，

表示激活函数，例如线性整流（ReLU）激活函数。B表示参数化可训练邻接矩阵。该参数化可训练邻接矩阵中的参数可以随着图卷积核参数一起进行更新优化。可选的，该参数化可训练邻接矩阵的初始值可以为A。A例如可以表示人体自然拓扑结构的邻接矩阵。其中，D表示度矩阵，该度矩阵可以用于进行归一化操作。X表示输入该图卷积层的矩阵。W表示图卷积中可训练的权值矩阵。Y表示该图卷积层的输出。

在该实现方式下，通过第一样本数据集，对第一预设模型进行每一轮训练过程中，更新参数化可训练邻接矩阵中的参数，使得参数化可训练邻接矩阵中的元素可以是训练过程确定的任意数值，因此，不仅可以将各种不同的关键点进行相连，且相连两关键点之间的边的权重也可以经学习得到。该参数化可训练邻接矩阵能够学习到更加有利于手部动作识别的图拓扑结构，进而提高了后续使用三维结构图特征提取模型进行手部动作识别的准确性。

下面对上述第一预设模型的损失函数进行示例性说明：

作为一种可能的实现方式，该第一预设模型的损失函数可以为第一预设子模型对应的第一子损失函数、第二预设子模型对应的第二子损失函数，以及，第三预设子模型对应的第三子损失函数的加权和。示例性的，该第一预设模型的损失函数例如可以如下述公式（2）所示：

（2）

其中，

用于表示第一预设子模型对应的第一子损失函数，也就是说，该

可以用于表示第一预设子模型预测初始二维结构图的损失。

用于表示第二预设子模型对应的第二子损失函数。

用于表示第三预设子模型对应的第三子损失函数。上述

和

均用于表示权重。以公式（2）为例，第三子损失函数对应的权重可以为1。在一些实施例中，上述

和

可以相等，例如均为0.1。通过

和

的值相等，可以将第一预设子模型预测初始二维结构图的损失（以像素为单位）和第二子损失函数预设目标二维结构图的损失函数（以毫米为单位）带入一个接近的范围，也就是降低了像素单位与毫米单位之间数值的差异，提高了第一预设模型的损失函数的准确性。

示例性的，对于任一第一子损失函数、第二子损失函数，以及，第三子损失函数中的任一损失函数，该损失函数的类型例如可以为均方误差损失函数。应理解，上述第一子损失函数、第二子损失函数，以及，第三子损失函数之间的损失函数类型可以相同，也可以不同，本申请对此并不进行限定。

下面对如何获取上述第一预设模型进行详细说明。应理解，此处用于获取第一预设模型的执行主体可以与前述电子设备为同一电子设备，也可以为不同电子设备，本申请对此并不进行限定。

作为一种可能的实现方式，在使用第一样本数据集训练第一预设模型，得到三维结构图特征提取模型之前，电子设备还可以获取第二样本数据集，然后使用该第二样本数据集训练第一初始模型，得到第一预设子模型。

其中，上述第二样本数据集可以包括：至少一个第二样本数据子集。该第二样本数据子集可以包括：样本图像，以及，样本图像中包括的目标关键点对应的二维结构图标签。应理解，本申请对电子设备如何使用该第二样本数据集训练第一初始模型以获取第一预设子模型并不进行限定。

电子设备还可以获取第三样本数据集，然后使用第三样本数据集训练第二初始模型，得到第二预设子模型。其中，上述第三样本数据集可以包括：至少一个第三样本数据子集。该第三样本数据子集可以包括：将样本图像输入第一预设子模型得到的样本图像中的各目标关键点对应的初始二维结构图、各目标关键点对应的图像特征，以及，样本图像中包括的目标关键点对应的二维结构图标签。也就是说，电子设备可以先将样本图像输入第一预设子模型，以获取样本图像中的各目标关键点对应的初始二维结构图。然后根据该样本图像中的各目标关键点对应的初始二维结构图，获取第三样本数据子集。

应理解，本申请对电子设备如何使用该第三样本数据集训练第二初始模型以获取第二预设子模型并不进行限定。

在获取第一预设子模型和第二预设子模型之后，电子设备可以根据该第一预设子模型，以及，第二预设子模型，得到第一预设模型。可选的，电子设备可以通过拼接第一预设子模型、第二预设子模型，以及前述第三预设子模型，以获取级联后的第一预设模型。

在本实施例中，通过使用第二样本数据集对第一初始模型进行训练，得到第一预设子模型。通过使用第三样本数据集对第二初始模型进行训练，得到第二预设子模型。通过上述预训练之后的第一预设子模型和第二预设子模型得到第一预设模型，可以提高对第一预设模型的训练效率。

以上述第一预设子模型为轻量级10层的轻量级残差网络（Residual Network，ResNet10），第二预设子模型为3层的自适应图卷积网络（Adaptive Graph ConvolutionalNetworks，AGCN3），第三预设子模型为自适应图U-net（一种语义分割网络模型，因模型结构呈U字形而得名）为例，图5为本申请提供的一种第一预设模型的架构示意图。如图5所示，上述样本图像可以为RGB图像。

电子设备可以将该RGB图像输入手部分割网络（Handsegnet），得到手部与手部所持物体的图像。然后，电子设备可以将该手部与手部所持物体的图像输入ResNet10，通过该ResNet10输出该RGB图像中包括的目标关键点的初始二维结构图。电子设备可以将该初始二维结构图输入至AGCN3，得到目标二维结构图。此阶段利用骨架图中相连接关键点与没有直接连接的关键点之间所隐含的特征信息来修改初始二维结构图中关键点的二维坐标，得到更加精确的目标二维手-物交互骨架图（也就是目标二维结构图）。

然后，电子设备可以将该目标二维结构图输入至自适应图U-net，得到手-物交互三维骨架图（3D skeleton），也就是三维结构图。示例性的，图6为本申请提供的一种自适应图U-net的结构示意图。如图6所示，该自适应图U-net的输入为目标二维结构图（如图6中所示的2D Hand-object）。如图6所示，其中，Gconv1、Gconv2、Gconv3、Gconv4、Gconv5、Gconv6、Gconv7、Gconv8、Gconv9、Gconv10均表示图卷积层。Pool1、Pool2、Pool3、Pool4、Pool5均表示图池化。Unpool6、Unpool7、Unpool8、Unpool9、Unpool10均表示图反池化。fc1、fc2表示全连接层。示例性的，各个图卷积层、池化层、反池化层、全连接层的输出数据的维度例如可以为如图6中所示。例如，

表示29个目标关键点，每个目标关键点的特征个数可以为4。

通过上述自适应图U-net作为第三预设子模型，因为自适应图U-net网络由左半部分的解码层和右半部分的编码层组成，且该自适应图U-net网络经过五次下采样进行手-物交互关键点的特征信息提取，经过五次上采样得到3D的手-物交互骨架图。该网络的跳跃连接将下采样部分的自适应图卷积结果拼接到右侧相对应上采样的输入部分进行特征融合，这样可以使得编码部分下采样提取的特征结果直接传给解码部分的上采样层，可以让网络获得更好的关键点的位置信息，从而提高了基于三维结构图特征提取模型进行手部动作识别的准确性。

示例性的，样本图像可以被调整为224*224的像素大小输入到ResNet10模型。在一些实施例中，上述样本图像还可以来自合成图像集（非真实图像数据集），例如ObMan（一种公开数据集的名称）合成数据集，以降低收集第一样本数据集的成本。

电子设备训练ResNet10模型的初始学习率例如可以为0.001，每训练100步可以乘以0.9。电子设备可以先训练ResNet10模型5000轮（也就是5000个epoch）。然后训练AGCN3模型10000个epoch，此时学习速率可以从0.001开始，每4000步乘以0.1。最后，电子设备可以对上述第一预设模型进行5000个epoch的端到端训练。

图7为本申请提供的一种自适应图池化方法的流程示意图。如图7所示，示例性的，图池化的公式可以如下公式（3）-（8）：

如图7所示，公式（3）中，y=[y₁,y₂,…,y_N]^T，使用y_i来度量每个关键点在投影向量

上的投影值，

为输入的特征矩阵。矩阵

每行为一个关键点的特征。

（如图7中所示的p）是一个可训练的投影向量，将所有节点（也就是关键点）特征投影到1维。公式（4）中rank(y，k)表示节点的排序操作，返回y中值最大的k个节点（如图7中所示的Top k）的索引idx，k表示选择的节点的数量。在公式（5）中，使用选定的索引idx获得门向量

，采用门向量来控制信息流。σ为sigmoid激活函数。公式（6）表示在原有的特征矩阵X^l上通过索引idx来获得新的特征矩阵

。公式（7）表示使用选择的索引idx，可以得到邻接矩阵

对应的新图的邻接矩阵

。公式（8）表示将

与选择的节点的分数向量

求hardmard积，得到

。1_C是一个所有元素都是1，大小为C的特征向量。

为矩阵的hardmard积运算。

由于上述图池化层中的sigmoid函数会导致梯度消失，并且根本不会更新选中的节点。因此，如图6所示，本申请通过全连接层来汇聚节点，并更新图卷积层中的邻接矩阵，使用邻接矩阵作为内核应用到本申请的手-物交互骨架图中。此外，由于传统的图池化删除了顶点和所有连接到它们的边，并且没有一个过程来重新连接剩余的顶点，对于手-物交互骨架图，删除一个节点和边可能把图切成几个孤立的子图、破坏图的连通性，这是图卷积神经网络中最重要的特征。而使用自适应图卷积神经网络，因为网络在每个池化层之后都能找到节点的连通性，因此本申请避免了该问题，提高了基于三维结构图特征提取模型得到三维结构图的准确性。

在通过前述任一实施例的特征提取模型训练方法得到三维结构图特征提取模型之后，可以使用该三维结构图特征提取模型，进行手部动作识别。可选的，执行下述手部动作识别方法的执行主体也可以为任何一种具有处理功能的终端或者服务器等电子设备。其中，执行该手部动作识别方法的电子设备与前述执行三维结构图特征提取模型方法的电子设备可以为同一电子设备，也可以为不同电子设备。

下面结合具体地实施例对本申请的提供的手部动作识别技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图8为本申请提供的一种手部动作识别方法的流程示意图。如图8所示，该方法包括以下步骤：

S201、获取至少一帧目标图像。

可选的，电子设备可以通过API或者GUI获取上述目标图像。在一些实施例中，电子设备还可以从视频，或者视频流中获取至少一帧目标图像。

S202、将至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧目标图像中包括的目标关键点对应的三维结构图。

如前述所说，该目标关键点可以包括：手部的关键点。该三维结构图特征提取模型可以为采用如前述任一实施例所述的方法训练得到的。该三维结构图可以包括：在三维坐标系下，目标图像中包括的各目标关键点之间的连接关系。

S203、根据各帧目标图像中包括的目标关键点对应的三维结构图，获取至少一帧目标图像对应的动作类型。

以电子设备获取一帧目标图像为例，电子设备可以直接将该帧目标图像输入至动作类型识别模型，以得到该帧目标图像对应的动作类型。以电子设备获取多帧目标图像为例，示例性的，电子设备例如可以将各帧目标图像分别输入至动作类型识别模型，以得到各帧目标图像对应的动作类型。然后，电子设备例如可以将对应的目标对象的帧数最多的动作类型，作为多针目标图像对应的动作类型。

在本实施例中，通过上述三维结构图特征提取模型，可以得到各帧目标图像中包括的目标关键点对应的三维结构图。通过该三维结构图，可以获取至少一帧目标图像对应的动作类型。通过上述方法，不需光流图像且不需对视频流进行3D卷积操作，即可实现手部动作识别，提高了手部动作识别的效率。

可选的，电子设备在获取上述至少一帧目标图像对应的动作类型之后，还可以执行该动作类型对应的目标操作。示例性的，该电子设备中例如可以存储有动作类型与操作的映射关系。电子设备可以根据该至少一帧目标图像对应的动作类型，以及，动作类型与操作的映射关系，确定该动作类型对应的目标操作。然后，电子设备可以执行该动作类型对应的目标操作。

应理解，本申请对上述目标操作的具体内容并不进行限定。示例性的，该目标操作例如可以为输出动作类型相应的提示信息，或者，显示该动作类型对应的动画等。

在本实施例中，通过在获取上述至少一帧目标图像对应的动作类型之后，执行该动作类型对应的目标操作，通过提高手部动作识别的效率，因此提高了执行该动作类型对应的目标操作的效率。

如前述所说，作为一种可能的实现方式，该目标关键点还可以包括：手部所持物体的关键点。在该实现方式下，电子设备可以先获取至少一帧初始图像，再通过预设的图像分割模型，对初始图像进行图像分割，得到手部与手部所持物体的图像。然后，电子设备可以将手部与手部所持物体的图像，作为目标图像。示例性的，上述预设的图像分割模型例如可以为HandSegNet模型。

在本实施例中，相较于现有的手部动作识别方法均是将手和手触摸的物体作为两个独立的个体，并没有考虑手的动作与手所抓物体的相关性的缺陷，本申请通过将手部所持物体的关键点也作为目标关键点得到目标图像，将手和手部所持物体的姿态是高度相关的事实考虑在内。使用该目标图像获取手部动作类型，提高了手部动作识别的准确性。

下面对电子设备如何根据各帧目标图像中包括的目标关键点对应的三维结构图，获取至少一帧目标图像对应的动作类型，进行详细说明：

作为一种可能的实现方式，针对任意相邻的两帧目标图像对应的三维结构图，电子设备可以建立该两个三维结构图中相同标识的目标关键点之间的连接关系，得到至少一帧目标图像对应的一个三维结构图。然后，电子设备可以将该至少一帧目标图像对应的一个三维结构图，输入预先训练好的手部动作识别模型，得到至少一帧目标图像对应的动作类型。

以电子设备根据25帧目标图像的三维结构图得到一个三维结构图为例，图9为本申请提供的一种三维结构图的示意图。如图9所示，该25帧目标图像的三维结构图中每个三维结构图可以包括29个节点，每个节点都有一个三维坐标。以该25帧目标图像的三维结构图中标识为手掌关键点的目标关键点为例，电子设备可以将第一帧目标图像中的手掌关键点1、第二帧目标图像中的手掌关键点2、第三帧目标图像中的手掌关键点3等手掌关键点，按照时间的先后顺序建立连接关系。再例如，电子设备还可以将第一帧目标图像中的物体第一关键点1、第二帧目标图像中的物体第一关键点2、第三帧目标图像中的物体第一关键点3等物体第一关键点建立连接关系。通过上述方法，电子设备可以得到25帧目标图像对应的一个形状为25×29×3的三维结构图。

以上述预先训练好的手部动作识别模型为，基于一个5层的自适应图卷积网络模型进行训练，得到的手部动作识别模型为例，图10为本申请提供的另一种手部动作识别方法的流程示意图。如图10所示，电子设备可以将25帧目标图像对应的一个三维结构图输入预先训练好的手部动作识别模型，得到该模型的输出，以获取该25帧目标图像对应的动作类型。其中，该预先训练好的手部动作识别模型可以是基于5层的自适应图卷积网络模型进行训练得到的。如图10所示，此处所说的自适应图卷积网络模型的每层可以包括图卷积层和图池化层。

可选的，每个自适应图卷积操作可以将三维结构图中节点的特征数量增加一倍，而每个自适应图池化操作可以将三维结构图中节点数量减少四分之一。经过自适应图卷积与图池化的操作，电子设备最终可以输出一个关键点。该关键点可以被传递到全连接层，最终得到每个动作类别的得分。然后，电子设备可以将得分最高的作为预测的动作类型。可选的，此处所说的自适应图卷积与图池化可以参照前述实施例所述的方法，在此不在赘述。

图11为本申请提供的一种特征提取模型训练装置的结构示意图。如图11所示，该装置包括：获取模块31、训练模块32。其中，

获取模块31，用于获取第一样本数据集。其中，所述第一样本数据集包括：至少一个第一样本数据子集；所述第一样本数据子集包括：样本图像，以及，所述样本图像中包括的目标关键点对应的三维结构图标签；所述目标关键点包括：手部的关键点；所述三维结构图包括：在三维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系。

训练模块32，用于使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型。其中，所述第一预设模型包括：第一预设子模型、第二预设子模型，以及，第三预设子模型；所述第一预设子模型用于对所述样本图像进行特征提取，得到所述样本图像中的各目标关键点对应的初始二维结构图，以及，各目标关键点对应的图像特征；所述第二预设子模型用于根据所述各目标关键点对应的图像特征，对所述各目标关键点对应的初始二维结构图进行调整，得到所述各目标关键点对应的目标二维结构图；所述二维结构图包括：在二维坐标系下，所述样本图像中包括的各目标关键点之间的连接关系；所述第三预设子模型用于将所述各目标关键点对应的目标二维结构图转换为三维结构图；所述三维结构图特征提取模型用于根据输入的目标图像，获取所述目标图像中包括的目标关键点对应的三维结构图。

可选的，获取模块31，具体用于获取至少一个初始样本图像；通过预设的图像分割模型，对所述初始样本图像进行图像分割，得到手部与所述手部所持物体的图像；将所述手部与所述手部所持物体的图像，作为所述样本图像；根据所述样本图像，以及，所述样本图像中包括的目标关键点对应的三维结构图标签，获取所述第一样本数据集。

可选的，所述第二预设子模型，以及，所述第三预设子模型均包括至少一层图卷积层；所述图卷积层对应的图卷积公式中包括：参数化可训练邻接矩阵。可选的，训练模块32，具体用于在使用所述第一样本数据集，对所述第一预设模型进行每一轮训练过程中，更新所述参数化可训练邻接矩阵中的参数，直到得到所述三维结构图特征提取模型。

可选的，获取模块31，还用于在所述使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型之前，获取第二样本数据集。其中，所述第二样本数据集包括：至少一个第二样本数据子集；所述第二样本数据子集包括：样本图像，以及，所述样本图像中包括的目标关键点对应的二维结构图标签。训练模块32，还用于使用所述第二样本数据集训练第一初始模型，得到所述第一预设子模型。

获取模块31，还用于获取第三样本数据集。其中，所述第三样本数据集包括：至少一个第三样本数据子集；所述第三样本数据子集包括：将样本图像输入所述第一预设子模型得到的所述样本图像中的各目标关键点对应的初始二维结构图、各目标关键点对应的图像特征，以及，所述样本图像中包括的目标关键点对应的二维结构图标签。训练模块32，还用于使用所述第三样本数据集训练第二初始模型，得到所述第二预设子模型。获取模块31，还用于根据所述第一预设子模型，以及，所述第二预设子模型，得到所述第一预设模型。

本申请提供的特征提取模型训练装置，用于执行前述特征提取模型训练方法实施例，其实现原理与技术效果类似，对此不再赘述。

图12为本申请提供的一种手部动作识别装置的结构示意图。如图12所示，该装置包括：获取模块41、第一处理模块42和第二处理模块43。其中，

获取模块41，用于获取至少一帧目标图像。

第一处理模块42，用于将所述至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧所述目标图像中包括的目标关键点对应的三维结构图。其中，所述目标关键点包括：手部的关键点；所述三维结构图特征提取模型为采用如前述任一实施例所述的特征提取模型训练方法训练得到的；所述三维结构图包括：在三维坐标系下，所述目标图像中包括的各目标关键点之间的连接关系。

第二处理模块43，用于根据所述各帧所述目标图像中包括的目标关键点对应的三维结构图，获取所述至少一帧目标图像对应的动作类型。

可选的，获取模块41，具体用于获取至少一帧初始图像；通过预设的图像分割模型，对所述初始图像进行图像分割，得到手部与所述手部所持物体的图像；将所述手部与所述手部所持物体的图像，作为所述目标图像。

可选的，第二处理模块43，具体用于针对任意相邻的两帧目标图像对应的三维结构图，建立该两个三维结构图中相同标识的目标关键点之间的连接关系，得到所述至少一帧目标图像对应的一个三维结构图；将所述至少一帧目标图像对应的一个三维结构图，输入预先训练好的手部动作识别模型，得到所述至少一帧目标图像对应的动作类型。

可选的，第二处理模块43，还用于在所述获取所述至少一帧目标图像对应的动作类型之后，执行所述动作类型对应的目标操作。

本申请提供的手部动作识别装置，用于执行前述手部动作识别方法实施例，其实现原理与技术效果类似，对此不再赘述。

图13为本申请提供的一种电子设备结构示意图。如图13所示，该电子设备500可以包括：至少一个处理器501和存储器502。

存储器502，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器502可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

处理器501用于执行存储器502存储的计算机执行指令，以实现前述方法实施例所描述的特征提取模型训练和手部动作识别方法。其中，处理器501可能是一个中央处理器（Central Processing Unit，简称为CPU），或者是特定集成电路（Application SpecificIntegrated Circuit，简称为ASIC），或者是被配置成实施本申请实施例的一个或多个集成电路。

可选的，该电子设备500还可以包括通信接口503。在具体实现上，如果通信接口503、存储器502和处理器501独立实现，则通信接口503、存储器502和处理器501可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构（Industry StandardArchitecture，简称为ISA）总线、外部设备互连（Peripheral Component，简称为PCI）总线或扩展工业标准体系结构（Extended Industry Standard Architecture，简称为EISA）总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口503、存储器502和处理器501集成在一块芯片上实现，则通信接口503、存储器502和处理器501可以通过内部接口完成通信。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random AccessMemory）、磁盘或者光盘等各种可以存储程序代码的介质，具体的，该计算机可读存储介质中存储有程序指令，程序指令用于上述实施例中的方法。

本申请还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。电子设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得电子设备实施上述的各种实施方式提供的特征提取模型训练和手部动作识别方法。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种特征提取模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述目标关键点还包括：所述手部所持物体的关键点。

3.根据权利要求2所述的方法，其特征在于，所述获取第一样本数据集，包括：

获取至少一个初始样本图像；

4.根据权利要求1-3任一项所述的方法，其特征在于，所述第二预设子模型，以及，所述第三预设子模型均包括至少一层图卷积层；所述图卷积层对应的图卷积公式中包括：参数化可训练邻接矩阵，所述使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，所述第一预设模型的损失函数为所述第一预设子模型对应的第一子损失函数、所述第二预设子模型对应的第二子损失函数，以及，所述第三预设子模型对应的第三子损失函数的加权和。

6.根据权利要求1-3任一项所述的方法，其特征在于，在所述使用所述第一样本数据集训练第一预设模型，得到三维结构图特征提取模型之前，所述方法还包括：

7.一种手部动作识别方法，其特征在于，所述方法包括：

获取至少一帧目标图像；

将所述至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧所述目标图像中包括的目标关键点对应的三维结构图；所述目标关键点包括：手部的关键点；所述三维结构图特征提取模型为采用如权利要求1-6任一项所述的方法训练得到的；所述三维结构图包括：在三维坐标系下，所述目标图像中包括的各目标关键点之间的连接关系；

8.根据权利要求7所述的方法，其特征在于，所述目标关键点还包括：所述手部所持物体的关键点。

9.根据权利要求8所述的方法，其特征在于，所述获取至少一帧目标图像包括：

获取至少一帧初始图像；

10.根据权利要求7-9任一项所述的方法，其特征在于，所述根据所述各帧所述目标图像中包括的目标关键点对应的三维结构图，获取所述至少一帧目标图像对应的动作类型，包括：

11.根据权利要求7-9任一项所述的方法，其特征在于，在所述获取所述至少一帧目标图像对应的动作类型之后，所述方法还包括：

执行所述动作类型对应的目标操作。

12.一种特征提取模型训练装置，其特征在于，所述装置包括：

13.一种手部动作识别装置，其特征在于，所述装置包括：

获取模块，用于获取至少一帧目标图像；

第一处理模块，用于将所述至少一帧目标图像输入至三维结构图特征提取模型中，得到各帧所述目标图像中包括的目标关键点对应的三维结构图；所述目标关键点包括：手部的关键点；所述三维结构图特征提取模型为采用如权利要求1-6任一项所述的方法训练得到的；所述三维结构图包括：在三维坐标系下，所述目标图像中包括的各目标关键点之间的连接关系；

14.一种电子设备，其特征在于，包括：至少一个处理器、存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述电子设备执行权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机执行指令，当所述计算机执行指令被处理器执行时，实现权利要求1-11任一项所述的方法。