CN116386089A

CN116386089A - 运动场景下人体姿态估计方法、装置、设备及存储介质

Info

Publication number: CN116386089A
Application number: CN202310656056.1A
Authority: CN
Inventors: 吴星辰; 常沛炜; 李友高; 许朝智
Original assignee: Ji Hua Laboratory
Current assignee: Ji Hua Laboratory
Priority date: 2023-06-05
Filing date: 2023-06-05
Publication date: 2023-07-04
Anticipated expiration: 2043-06-05
Also published as: CN116386089B

Abstract

本发明涉及人体姿态估计技术领域，公开了一种运动场景下人体姿态估计方法、装置、设备及存储介质，该方法包括：获取运动场景下的当前帧图片以及邻近帧图片；基于Faster‑RCNN网络获取当前帧图片和邻近帧图片中目标人物的边界框特征图；将当前帧图片和邻近帧图片中目标人物的边界框特征图输入至HRNet网络，获取当前帧图片和邻近帧图片的特征向量；基于全局‑局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量；使用检测器标记出目标人物在当前帧图片中的关节，得到人体姿态图。本发明提供的方法能够精准估计运动场景下目标人物的人体姿态。

Description

运动场景下人体姿态估计方法、装置、设备及存储介质

技术领域

本发明涉及人体姿态估计技术领域，尤其涉及一种运动场景下人体姿态估计方法、装置、设备及存储介质。

背景技术

人体姿态估计作为计算机视觉研究领域的一个重要研究方向，以及体感技术领域中的一个关键问题，广泛应用于人体活动分析、智能视频监控及高级人机交互等领域。人体姿态估计技术，可以通过计算机在一幅包含人体的图像中自动地检测出人体，即输出人的整体或者局部肢体的结构参数，如人体轮廓、头部的位置与朝向、人体关节点的位置与部位类别，为人体活动分析、智能监控等研究工作提供重要的基础数据。

羽毛球运动具有运动幅度大、移动速度快的特点，因此在羽毛球运动场景下获得的邻近图像的特征往往差异较大。然而，现有的人体姿态估计方法大多是通过直接聚合未进行空间对齐的邻近帧图像的特征来增强当前帧图像的表征，这容易引入噪声进而导致对当前帧图像中的人体姿态估计不精准。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于解决现有方法对于运动场景下的人体姿态估计不精准的问题。

第一方面，本申请提供了一种运动场景下人体姿态估计方法，其包括步骤：

获取运动场景下的多帧运动图片，所述多帧运动图片按时间轴顺序划分为当前帧图片以及位于当前帧图片前后的邻近帧图片；

基于Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图；

将所述当前帧图片和邻近帧图片中目标人物的边界框特征图输入至HRNet网络，获取当前帧图片和邻近帧图片的特征向量；

基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量；

基于所述邻近帧图片的对齐特征向量以及当前帧图片的特征向量，使用检测器标记出目标人物在当前帧图片中的关节，即得到人体姿态图。

可选地，基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量，包括：

所述全局-局部特征对齐模型包括基于可形变卷积的全局对齐模块和基于适应性卷积的局部对齐模块，将所述当前帧图片和邻近帧图片的特征向量输入至全局对齐模块，通过可形变卷积自适应地从全局将邻近帧图片的特征向量对齐至当前帧图片的特征向量，得到初步对齐的邻近帧图片特征向量；

将所述当前帧图片的特征向量和所述初步对齐的邻近帧图片特征向量输入至所述局部对齐模块，通过适应性卷积从局部将初步对齐的邻近帧图片特征向量对齐至当前帧图片的特征向量，得到完全对齐后邻近帧图片特征向量。

可选地，将所述当前帧图片和邻近帧图片的特征向量输入至全局对齐模块，通过可形变卷积自适应地从全局将邻近帧图片的特征向量对齐至当前帧图片的特征向量，得到初步对齐的邻近帧图片特征向量，包括：

根据当前帧图片的特征向量

，获取邻近帧图片的特征向量/>

的卷积核采样偏移参数/>

和调制标量/>

，/>

， />

，其中，/>

和/>

分别表示生成/>

和/>

的变换函数，所述变换函数由两个卷积/>

核为的基础块组成，两者结构相同但不共享权值，/>

表示按通道维度对特征向量进行堆叠；

可形变卷积

以邻近帧图片的特征向量/>

、卷积核采样偏移参数/>

和调制标量/>

作为输入，生成初步对齐的邻近帧图片特征向量/>

，/>

，

中某一像素/>

的计算公式为：/>

，其中，/>

表示卷积核中/>

像素位置的权重，/>

表示卷积核形变后的采样位置。

可选地，将所述当前帧图片的特征向量和所述初步对齐的邻近帧图片特征向量输入至所述局部对齐模块，通过适应性卷积从局部将初步对齐的邻近帧图片特征向量对齐至当前帧图片的特征向量，得到完全对齐后邻近帧图片特征向量，包括：

以当前帧图片的特征向量

和初步对齐的邻近帧图片特征向量/>

作为输入特征，使用扩展的空间变换网络/>

根据输入特征中每个像素的位置估计一个变换矩阵/>

和一个平移向量/>

以确定其卷积核元素经过偏移最终采样位置的集合/>

，其中，/>

，/>

，/>

表示常规的卷积/>

核为的网格；

对于完全对齐后邻近帧图片特征向量

上任意像素/>

，其计算过程为：

，其中，/>

表示/>

元素i中与像素/>

相对应的像素偏移参数。

可选地，基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐的步骤中，将2张、4张或6张邻近帧图片的特征向量与当前帧图片的特征向量进行对齐。

可选地，基于Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图，包括：

将当前帧图片输入至Faster-RCNN网络，将所述Faster-RCNN网络作为人体检测器来获取当前帧图片中目标人物的边界框，并将每个边界框放大25%，得到当前帧图片的边界框特征图；

根据所述当前帧图片的边界框特征图在邻近帧图片中裁剪相同位置以获取邻近帧图片中目标人物的边界框特征图。

可选地，基于所述邻近帧图片的对齐特征向量以及当前帧图片的特征向量，使用检测器标记出目标人物在当前帧图片中的关节，即得到人体姿态图，包括：

将所述邻近帧图片的对齐特征向量和当前帧图片的特征向量进行融合处理，得到当前帧图片的增强融合特征；

以卷积模块作为检测器对所述当前帧图片的增强融合特征进行关节标记处理，得到当前帧图片的特征热图，即获得人体姿态图。

第二方面，本申请提供了一种运动场景下人体姿态估计装置，其包括：

第一获取模块，用于获取运动场景下的多帧运动图片，所述多帧运动图片按时间轴顺序划分为当前帧图片以及位于当前帧图片前后的邻近帧图片；

第二获取模块，用于基于Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图；

第三获取模块，用于将所述当前帧图片和邻近帧图片中目标人物的边界框特征图输入至HRNet网络，获取当前帧图片和邻近帧图片的特征向量；

特征对齐模块，用于基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量；

标记模块，用于基于所述邻近帧图片的对齐特征向量以及当前帧图片的特征向量，使用检测器标记出目标人物在当前帧图片中的关节，即得到人体姿态图。

第三方面，本申请提供了一种运动场景下人体姿态估计设备，其包括存储器和至少一个处理器，所述存储器中存储有计算机可读指令；

所述至少一个处理器调用所述存储器中的所述计算机可读指令，以执行如本发明所述运动场景下人体姿态估计方法的各个步骤。

第四方面，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其中，所述计算机可读指令被处理器执行时实现如本发明所述运动场景下人体姿态估计方法的各个步骤。

有益效果：本申请提出一种基于全局-局部特征对齐模型的运动场景下人体姿态估计方法，所述全局-局部特征对齐模型包括基于可形变卷积的全局对齐模块和基于适应性卷积的局部对齐模块，首先基于全局对齐模块以整体特征为处理目标对相邻帧图片和当前帧图片所包含的人体特征进行对齐；其次，为获取更为合理的视觉特征，通过局部对齐模块对局部人体特征信息进行精细优化对齐并保持特征的几何结构；经过对齐处理得到的完全对齐后邻近帧图片特征向量可用来增强当前帧图片的特征向量，从而有效解决由运动幅度较大或镜头抖动等原因造成的人体特征变化，进而得到更精准的运动场景下人体姿态。

附图说明

图1为本发明实施例提供的运动场景下人体姿态估计方法的流程图。

图2为本发明图1中步骤S200的其一细化流程图。

图3为本发明图1中步骤S400的其一细化流程图。

图4为本发明实施例提供的基于全局-局部特征对齐的姿态估计算法整体示意图。

图5为本发明实施例提供的运动场景下人体姿态估计方法在自行构建的羽毛球数据集上的可视化结果。

图6为本发明实施例提供的运动场景下人体姿态估计装置的一种结构示意图。

图7为本发明实施例提供的运动场景下人体姿态估计设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中运动场景下人体姿态估计方法的第一个实施例包括：

S100、获取运动场景下的多帧运动图片，所述多帧运动图片按时间轴顺序划分为当前帧图片以及位于当前帧图片前后的邻近帧图片。

在本实施例中，所述运动场景通常指运动员具有运动幅度大、移动速度快的运动场景，例如羽毛球运动场景、网球运动场景、乒乓球运动场景等。

本实施例以羽毛球运动场景为例，首先通过摄像机获取运动员在羽毛球运动场景下的运动视频，然后将所述运动视频按时间轴顺序分解成多帧运动图片，作为举例，将一段运动视频按时间抽顺序分解为7张图片，分别编号为1号、2号、3号、4号、5号、6号和7号图片，当以2号作为当前帧图片时，则1号和3号图片为当前帧图片前后的2张邻近帧图片；当以3号作为当前帧图片时，则2号和4号图片为当前帧图片前后的2张邻近帧图片，1号、2号、4号和5号图片则作为当前帧图片前后的4张邻近帧图片；相应地，当以4号作为当前帧图片时，则1号、2号、3号、5号、6号和7号图片则为当前帧图片前后的6张邻近帧图片。

S200、基于Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图。

在本实施例中，Faster-RCNN网络可以分为四个模块：1、Conv layers模块(特征提取网络)，输入为一张图片，输出为一张图片的特征，即feature map，通过一组conv+relu+pooling层提取图像的feature map，用于后续的RPN网络和全连接层；2、Region proposalNetwork(区域候选网络)，输入为第一步中的feature map，输出为多个兴趣区域（ROI）。输出的每个兴趣区域具体表示为一个概率值（用于判断anchor是前景还是背景）和四个坐标值，概率值表示该兴趣区域有物体的概率，这个概率是通过softmax对每个区域进行二分类得到的，坐标值是预测的物体的位置，在进行训练时会用这个坐标与真实的坐标进行回归使在测试时预测的物体位置更加精确；3、ROI pooling(兴趣域池化)，这一层以RPN网络输出的兴趣区域和Conv layers输出的feature map为输入，将两者进行综合后得到固定大小的区域特征图（proposal feature map）并输出到后面的全连接网络中进行分类。4、Classification and Regression(分类和回归)，输入为上一层得到的区域特征图，输出为兴趣区域中物体所属的类别以及物体在图像中精确的位置，这一层通过softmax对图像进行分类，并通过边框回归修正物体的精确位置。

本实施例主要是通过Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图，如图2所示，其具体包括步骤：

S210、将当前帧图片输入至Faster-RCNN网络，将所述Faster-RCNN网络作为人体检测器来获取当前帧图片中目标人物的边界框，并将每个边界框放大25%，得到当前帧图片的边界框特征图；

在本实施例中，将羽毛球运动场景的当前帧图片输入至Faster-RCNN网络，以框选的方式输出目标人物（运动员）在当前帧图片中的精确位置，即得到目标人物的边界框，进一步地，为了确保目标人物在框选的范围内，将所述目标人物的边界框放大25%，从而得到当前帧图片的边界框特征图。

S220、根据所述当前帧图片的边界框特征图在邻近帧图片中裁剪相同位置以获取邻近帧图片中目标人物的边界框特征图。

在本实施例中，由于邻近帧图片与当前帧图片为同一视频中的连续帧图片，因此运动员在当前帧图片和邻近帧图片中的位置是接近的，为了减少计算并提升效率，本实施例根据所述当前帧图片的边界框特征图在邻近帧图片中裁剪相同位置，可以准确地获取邻近帧图片中目标人物的边界框特征图。

S300、将所述当前帧图片和邻近帧图片中目标人物的边界框特征图输入至HRNet网络，获取当前帧图片和邻近帧图片的特征向量。

高分辨网络（High-Resolution Net, HRNet）在运算全部过程中都可以保持高分辨表征，它始于一组高分辨率卷积，然后逐步添加低分辨率的卷积分支，并将它们以并行的方式连接起来。最终的网络由若干阶段组成，其中第n段包含n个卷积分支并且具备n个不同的分辨率，在整个过程中并行的运算组合间通过多分辨率融合不断地交换着信息。本实施例使用现有最为常见的骨干网络，即高分辨率网络HRNet来提取当前帧图片和邻近帧图片的特征向量，通过在人体姿态估计数据集上对HRNet网络进行预训练以获取更准确的高分辨率人体特征。

S400、基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量；

在本实施例中，由于在羽毛球运动场景中，运动员通常具有运动幅度大、移动速度快的特点，这将导致当前帧图片与邻近帧图片中目标人物特征的空间不对齐，例如运动员的身体在不同帧会出现大幅错位，而直接聚合相邻帧的信息会对当前帧特征的利用带来噪声和干扰。因此，本实施例提出基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行逐帧对齐，并聚合邻近帧的信息来增强当前帧的特征，以解决由运动幅度较大或镜头抖动等原因造成的人体特征变化。

具体来讲，所述全局-局部特征对齐模型包括基于可形变卷积的全局对齐模块和基于适应性卷积的局部对齐模块，所述基于可形变卷积的全局对齐模块可从整体上对邻近帧图片和当前帧图片的特征向量进行初步对齐，然后设计基于适应性卷积的局部对齐模块，进一步优化特征信息并保持特征的几何结构。

在一些实施方式中，如图3所示，基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量，包括：

S410、所述全局-局部特征对齐模型包括基于可形变卷积的全局对齐模块和基于适应性卷积的局部对齐模块，将所述当前帧图片和邻近帧图片的特征向量输入至全局对齐模块，通过可形变卷积自适应地从全局将邻近帧图片的特征向量对齐至当前帧图片的特征向量，得到初步对齐的邻近帧图片特征向量。

在本实施例中，简单的线性映射或常规卷积难以捕捉特征间的变化，而可形变卷积通过变换卷积核的形状以自适应的关注不同空间位置的信息，可对变化幅度较大的特征进行有效处理。因此，本实施例采用可形变卷积实现特征的全局对齐，如图4基于全局-局部特征对齐的姿态估计算法整体流程图所示，将邻近帧

的特征分别与当前帧/>

进行对齐。为了便于表示运算过程，本实施例以邻近帧/>

的特征对齐过程为例展开描述。

本实施例在以高分辨率网络HRNet提取当前帧图片和邻近帧图片的特征向量

和/>

后，以特征向量/>

和/>

作为输入，使用可形变卷积自适应地从全局将/>

对齐至/>

。具体操作过程如下：

首先根据特征向量

和/>

，为特征/>

获取卷积核采样偏移参数/>

和调制标量/>

：/>

(1)；

(2)，其中/>

和/>

分别表示生成/>

和/>

的变换函数，该变换函数由两个卷积核为/>

的Basic Block组成，两者结构相同但不共享权值，即独立地进行学习；/>

表示按通道维度对特征进行堆叠。

随后，可形变卷积

以邻近帧的特征/>

、卷积核采样偏移参数/>

和调制标量

为输入，生成对齐后的邻近帧特征/>

： />

(3)

对于对齐的特征向量

中某一像素/>

的计算过程如下：

(4)，其中

表示卷积核中/>

像素位置的权重，/>

表示卷积核形变后的采样位置；通过自适应地学习/>

和/>

可获取特征的整体变化，进而实现特征对齐。

S420、将所述当前帧图片的特征向量和所述初步对齐的邻近帧图片特征向量输入至所述局部对齐模块，通过适应性卷积从局部将初步对齐的邻近帧图片特征向量对齐至当前帧图片的特征向量，得到完全对齐后邻近帧图片特征向量。

虽然对特征进行全局对齐处理可以矫正较为显著的空间偏差，然而，部分局部特征，例如手腕等关节可能是未完全对齐的，需要对初步对齐的邻近帧图片特征向量和当前帧图片的特征向量进行局部对齐。在进行局部特征对齐时，通过保持原有特征的几何结构，即保持原始的关节部位形状有利于提高特征的鲁棒性，进而获取更为准确的姿态估计结果。因此，本实施例进一步设计了基于适应性卷积的局部对齐模块对特征进行再次优化，得到完全对齐后邻近帧图片特征向量

。

以

和/>

作为输入为例，本实施例采用一种参数化的方法，即使用扩展的空间变换网络/>

根据输入特征中每个像素的位置估计一个变换矩阵/>

和一个平移向量/>

以确定其卷积元素经过偏移最终采样位置的集合/>

,其中，/>

(5)； />

(6)，其中/>

表示前述常规的卷积核为/>

的网格。对于局部对齐的特征/>

上任意像素/>

，其计算过程可以描述为：

(7)，其中，/>

表示元素/>

中与像素/>

相对应的像素偏移参数。本实施例通过仿射变换来约束卷积核形状可以在实现特征对齐的同时，保留局部特征的几何结构，从而提高特征的鲁棒性。需要注意的是，在进行特征对齐的过程中，当前帧特征/>

只是作为参考特征参与进行特征传播过程，其特征值并未发生改变。

S500、基于所述邻近帧图片的对齐特征向量以及当前帧图片的特征向量，使用检测器标记出目标人物在当前帧图片中的关节，即得到人体姿态图。

在本实施例中，通过重复执行以上基于全局-局部特征对齐模型的特征对齐过程，可以将每个邻近帧图片的特征向量与当前帧图片的特征向量进行对齐。随后执行特征融合处理，即将所有对齐的邻近帧的特征和当前帧特征按通道维度进行拼接，并使用多个残差块进行融合并使用多个残差块进行融合处理，以增强当前帧图片的特征向量；最后，以

卷积模块作为检测器对所述当前帧图片的增强融合特征进行关节标记处理，得到当前帧图片的特征热图，即获得人体姿态图。

本实施例提出的一种基于全局-局部特征对齐模型的运动场景下人体姿态估计方法，所述全局-局部特征对齐模型包括基于可形变卷积的全局对齐模块和基于适应性卷积的局部对齐模块，首先基于全局对齐模块以整体特征为处理目标对相邻帧图片和当前帧图片所包含的人体特征进行对齐；其次，为获取更为合理的视觉特征，通过局部对齐模块对局部人体特征信息进行精细优化对齐并保持特征的几何结构；经过对齐处理得到的完全对齐后邻近帧图片特征向量可用来增强当前帧图片的特征向量，从而有效解决由运动幅度较大或镜头抖动等原因造成的人体特征变化，进而得到更精准的运动场景下人体姿态。

本发明使用标准的姿态估计损失函数来训练模型，其目标是降低所有估计出的关节热图与真实热图之间的总欧氏距离。

该损失函数可表示为：

(8)，其中，/>

、/>

和/>

分别表示第/>

个关节的预测热图、/>

真实热图和可见度（0,1）。本发明所估计的关节总数J=15，并仅对可见的关节即/>

进行损失惩罚。

本发明在自行构建的羽毛球场景人体运动数据集、姿态估计基准数据集PoseTrack2017和PoseTrack2018，使用关节的平均精度（average precision, AP）评估模型性能，并通过计算所有关节估计精度的平均值（mean average precision, mAP）获取模型的最终性能。

将本发明算法与现有4种先进的姿态估计模型在自行构建的羽毛球数据集上进行比较，包括CPM、LSTM-PM、ResNet-50和HRNet。量化评价结果如表1所示，本发明提出模型的mAP为72.8，优于其它4种现有模型。与用于处理图像姿态估计问题的ResNet-50相比，本发明方法的mAP提升了5.7。值得注意的是，相较于广泛使用的姿态估计骨干网络HRNet可提升2.5mAP。对于手腕和脚踝此类难以准确估计的关节，本发明的模型估计精度分别为71.2和61.9mAP，与现有算法相比表现出较大幅度的提升。

可视化结果如图5所示，在人体移动迅速、肢体存在遮挡等复杂情况的羽毛球场景中，本发明的模型仍可实现较为精准的姿态估计，进一步证明了该模型的鲁棒性。

表1 本专利算法与现有方法在羽毛球数据集的结果比较

为进一步了解本发明所提出的模型，通过设计如下消融实验对各个模块的性能进行检测。该实验在PoseTrack 2017数据集上进行，表2中仅报告所有关节估计精度的平均值。

表2 消融实验结果

本发明的模型默认使用4帧邻近帧进行特征融合，此外分别将帧数调整为2和6进行比较。从表2中第1、2和6行可以观察到，当使用2帧时mAP为75.9，因为较短的序列含有的辅助信息较少，所以估计精度较低。当使用6帧时，由于图像间差异较大，造成噪声特征累积，进而导致精度下降。此外，使用普通卷积替换形变卷积，从第3和6行的结果可以看出，当模型丧失适应特征形状变化的能力会造成估计精度的小幅降低。从第4和6行的结果可以观察到，当全局对齐模块缺失时，模型的估计精度受到严重的负面影响，证明了该模块的重要性。

本发明通过将局部对齐模块直接删除的方式探究其作用。从表2的第5和6行可以观察到，当该模块缺失时，模型的姿态估计精度会受到较大的影响，与完整模型相比mAP降低1.3。该模块以对全局对齐后的特征进行深层精细优化的方式，进一步提升模型性能。但是当特征未进全局对齐时，仅对局部特征进行优化难以实现较高的估计精度。

上面对本发明实施例中运动场景下人体姿态估计方法进行了描述，下面对本发明实施例中流水线上面单数异常检测装置进行描述，请参阅图6，本发明实施例中运动场景下人体姿态估计装置一个实施例包括：

第一获取模块10，用于获取运动场景下的多帧运动图片，所述多帧运动图片按时间轴顺序划分为当前帧图片以及位于当前帧图片前后的邻近帧图片；

第二获取模块20，用于基于Faster-RCNN网络来获取所述当前帧图片和邻近帧图片中目标人物的边界框特征图；

第三获取模块30，用于将所述当前帧图片和邻近帧图片中目标人物的边界框特征图输入至HRNet网络，获取当前帧图片和邻近帧图片的特征向量；

特征对齐模块40，用于基于全局-局部特征对齐模型将邻近帧图片的特征向量与当前帧图片的特征向量进行对齐，得到邻近帧图片的对齐特征向量；

标记模块50，用于基于所述邻近帧图片的对齐特征向量以及当前帧图片的特征向量，使用检测器标记出目标人物在当前帧图片中的关节，即得到人体姿态图。

本发明实施例中运动场景下人体姿态估计装置采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。

上面图6从模块化功能实体的角度对本发明实施例中运动场景下人体姿态估计装置进行详细描述，下面从硬件处理的角度对本发明实施例中运动场景下人体姿态估计设备进行详细描述。

图7是本发明实施例提供的一种运动场景下人体姿态估计设备的结构示意图，该运动场景下人体姿态估计设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）710（例如，一个或一个以上处理器）和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730（例如一个或一个以上海量存储设备）。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对运动场景下人体姿态估计设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在运动场景下人体姿态估计设备700上执行存储介质730中的一系列指令操作。

运动场景下人体姿态估计设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和/或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的设备结构并不构成对运动场景下人体姿态估计设备700的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行运动场景下人体姿态估计方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。