CN112379773B

CN112379773B - 多人三维动作捕捉方法、存储介质及电子设备

Info

Publication number: CN112379773B
Application number: CN202011260863.4A
Authority: CN
Inventors: 邱又海; 唐毅; 徐倩茹
Original assignee: Shenzhen Zhouming Technology Co Ltd
Current assignee: Shenzhen Zhouming Technology Co Ltd
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2024-05-24
Anticipated expiration: 2040-11-12
Also published as: JP2023512282A; CN112379773A; US20230186684A1; WO2022100119A1; JP7480312B2

Abstract

本发明公开了多人三维动作捕捉方法、存储介质及电子设备，其包括步骤：获取多个相机的同步视频帧，对每一个相机的每一张同步视频帧分别进行关节点识别及定位，得到每一个相机下每一个人员的2D关节点信息；计算每一个2D关节点的反投影射线，根据反投影射线之间为最短距离时的两个端点坐标来进行聚类，以得到最佳的2D人员匹配方案，反投影射线为2D关节点所对应的相机指向2D关节点的射线；根据最佳的2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息，以进行三维动作捕捉。本发明能解决了密集场景下存在的遮挡、2D误识别而导致2D点集匹配问题，实现了对多人的动作捕捉。

Description

多人三维动作捕捉方法、存储介质及电子设备

技术领域

本发明涉及人机交互技术领域，特别涉及多人三维动作捕捉方法、存储介质及电子设备。

背景技术

从2013年开始，VR(Virtual Reality，虚拟现实)技术在全球开始逐渐普及，其中，动作捕捉技术是VR技术中的一项关键性技术。

现阶段，传统的动作捕捉系统，采用光学式、惯性式或机械式的工作原理，其用户都需要借助第三方硬件、戴特定的动作捕捉服以及道具，来与系统进行交互，以上存在人机交互不够直接的问题。

随着深度学习的技术进度，计算机算力、算法精准度都得到了有效提高，尤其是图像处理领域，计算机可以对图像中的人体动作、面部表情、手指运动等进行实现姿态估计。其中，OpenPose(Github开源人体姿态识别项目)人体姿态识别项目能实现人体动作、面部表情和手指运动等姿态估计，并支持单个人员的动作捕捉功能。当单个人员进入场景后，OpenPose能够很好的对人员2D(two dimensional，二维)关节点进行3D(threedimensional，三维)重建；当在人群密集场景下，由于相机视角覆盖的原因，相机识别的人员个数不尽相同，其算法选取人员的算法很难匹配出正确的人员2D关节点，使得错误重建出人员3D关节点信息。

发明内容

本发明所要解决的技术问题是：提供多人三维动作捕捉方法、存储介质及电子设备，实现对多人的动作捕捉。

为了解决上述技术问题，本发明采用的技术方案为：

一种多人三维动作捕捉方法，包括步骤：

获取多个相机的同步视频帧，对每一个所述相机的每一张所述同步视频帧分别进行关节点识别及定位，得到每一个所述相机下每一个人员的2D关节点信息；

计算每一个2D关节点的反投影射线，根据所述反投影射线之间为最短距离时的两个端点坐标来进行聚类，以得到最佳的2D人员匹配方案，所述反投影射线为所述2D关节点所对应的相机指向所述2D关节点的射线；

根据最佳的所述2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息，以进行三维动作捕捉。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的多人三维动作捕捉方法。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的多人三维动作捕捉方法。

本发明的有益效果在于：多人三维动作捕捉方法、存储介质及电子设备，采集多个相机对场景内的不同视角进行采集识别，并通过不同相机对同一关节点的反投影射线之间应当重合的原理进行最短距离的计算和聚类，以对不同相机的多个关节点进行正确匹配对应，从而解决了密集场景下存在的遮挡、2D误识别而导致2D点集匹配问题，实现了对多人的动作捕捉。

附图说明

图1为本发明实施例的多人三维动作捕捉方法的流程示意图；

图2为本发明实施例涉及的多人三维动作捕捉方法的整体流程示意图；

图3为本发明实施例涉及的2D关节点的匹配流程示意图；

图4为本发明实施例涉及的人员3D关节点的重建流程示意图；

图5为本发明实施例涉及的OpenPose 25类关节点的结构示意图；

图6为本发明实施例涉及的多人三维动作捕捉方法的模拟场景示意图；

图7为本发明实施例涉及的多人三维动作捕捉方法在模拟场景下的聚类效果示意图；

图8为本发明实施例涉及的2D关节点的匹配示意图；

图9为本发明实施例涉及的关节点置信度过滤的效果示意图；

图10为本发明实施例涉及的五个人员左手关节的匹配示意图；

图11为本发明实施例涉及的多人三维动作捕捉方法在多人场景下的匹配示意图；

图12为本发明实施例涉及的两条反投影射线之间最短线段的计算示意图；

图13为本发明实施例的电子设备的结构示意图。

标号说明：

1、电子设备；2、处理器；3、存储器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

请参照图1至图11，一种多人三维动作捕捉方法，包括步骤：

从上述描述可知，本发明的有益效果在于：而采集多个相机对场景内的不同视角进行采集识别，并通过不同相机对同一关节点的反投影射线之间应当重合的原理进行最短距离的计算和聚类，以对不同相机的多个关节点进行正确匹配对应，从而解决了密集场景下存在的遮挡、2D误识别而导致2D点集匹配问题，实现了对多人的动作捕捉。

进一步地，所述计算每一个2D关节点的反投影射线，根据所述反投影射线之间为最短距离时的两个端点坐标来进行聚类，以得到最佳的2D人员匹配方案具体包括以下步骤：

对所有所述2D关节点信息按照关节点类型进行划分，以得到每一个所述关节类型所对应的所有所述2D关节点信息；

对每一个所述关节点类型的每一个所述2D关节点信息分别进行反投影射线的计算，根据所述反投影射线之间的最短距离来进行聚类，以得到每一个所述关节点类型的关节点匹配方案；

合并所有所述关节点类型的关节点匹配方案，以得到最佳的2D人员匹配方案。

从上述描述可知，在进行关节点定位时，按照关节点类型对多个关节点进行分类，只对同关节点类型的关节点进行匹配计算，从而减少了匹配运算次数，提高处理速度。

进一步地，所述计算每一个2D关节点的反投影射线具体包括以下步骤：

对每一个所述2D关节点，根据坐标原点和对应的相机外参得到相机3D坐标，将所述相机3D坐标作为所述反投影射线的端点，根据对应的相机内参、相机外参和每一个所述2D关节点的2D关节点坐标信息获得所述反投影射线的方向向量，以得到每一个所述2D关节点的反投影射线。

从上述描述可知，对于所要建立的坐标系有个坐标原点，根据实际空间相对关系，则可以得到相机3D坐标和2D关节点所对应的3D坐标，从而得到每一个2D关节点的反投影射线。

进一步地，所述根据所述反投影射线之间的最短距离来进行聚类，以得到每一个所述关节点类型的关节点匹配方案包括以下步骤：

分别对每一个所述相机中的每一个所述2D关节点的反投影射线与同一所述关节点类型下其他所述相机中的每一个所述2D关节点的反投影射线进行两两最短线段的计算，并获得两条所述反投影射线之间为最短线段时的两个端点的端点坐标；

对每一个所述关节点类型内的所有所述端点进行聚类，以输出聚类结果，根据所述聚类结果组合生成每一个所述关节点类型的关节点匹配方案。

进一步地，所述获得两条反投影射线之间为最短线段时的两个端点的端点坐标具体包括以下步骤包括如下步骤：

所述反投影射线的起点坐标和方向向量分别为s₀和/>所述反投影射线/>的起点坐标和方向向量分别为t₀和/>则所述反投影射线/>的向量表达式为/>所述反投影射线/>的向量表达式为/>

假设所述反投影射线和所述反投影射线/>之间为最短线段时的两个端点的端点坐标分别为s_j和t_j，则两个所述端点坐标的向量表达式为/>知/>记向量/>则所述反投影射线/>和所述反投影射线/>之间的最短线段的向量表达式为第一公式：/>所述s_c和所述t_c为标量；

将所述最短线段的向量表达式分别代入到和/>得到第二公式和第三公式，所述第二公式为/>所述第三公式为/>记则得到所述标量s_c＝(be-cd)/(ac-b²)和所述标量t_c＝(ae-bd)/(ac-b²)；

判断所述ac-b²是否等于0，若是，则所述反投影射线和所述反投影射线/>为平行关系，则在任意一条所述反投影射线上指定一固定点作为其中一个端点，代入所述第二公式和所述第三公式即可得到两个所述端点坐标s_j和t_j，否则根据所述标量s_c＝(be-cd)/(ac-b²)和所述标量t_c＝(ae-bd)/(ac-b²)求得两个所述端点坐标s_j和t_j。

从上述描述可知，不同相机对同一关节点的反投影射线之间应当重合，但是基于观测误差以及2D识别的误差，不同相机对同一关节点的反投影射线之间有可能不会重合，但肯定会靠的很近，由此，采用空间两直线之间的最短距离的计算方式来求得反投影射线之间的最短距离，从而用来判断不同相机的关节点之间是否为同一关节点。

进一步地，所述对每一个所述关节点类型内的所有所述端点进行聚类，以输出聚类结果，根据所述聚类结果组合生成每一个所述关节点类型的关节点匹配方案具体包括以下步骤：

在得到任意两条所述反投影射线之间为最短线段时的两个端点坐标时，根据两个所述端点坐标s_j和t_j得到所述最短线段的最短距离d_min＝|s_j-t_j|；

将每一个所述关节点类型内最短距离d_min超过预设距离阈值的所述最短线段进行过滤删除，将每一个所述关节点类型内保留下来的所述最短线段所对应的端点形成端点集合R，每一个所述端点对应于2D关节点、相机标识和人员标识；

通过k最邻近分类算法对每一个所述关节点类型内的所述端点集合R内的所有端点进行近邻匹配，以得到近邻端点所形成的簇团，按照每一个所述簇团内端点数量的多少，由高往低地对所述簇团进行排序，得到每一个所述关节点类型内排序后的簇团信息；

对每一个所述关节点类型分别进行匹配方案的生成：获取当前匹配项，遍历每一个簇团中每一个端点，若所遍历的端点未被所述当前匹配项使用且所述当前匹配项没有所遍历的端点的所述相机标识，则在所述当前匹配项中增加所述端点，直至所述簇团中的每一个端点均遍历完成，则得到每一个关节点类型的关节点匹配方案；

所述合并所有所述关节点类型的关节点匹配方案，以得到最佳的2D人员匹配方案具体包括以下步骤：

统计所有关节点类型的关节点匹配方案中每一个匹配项的出现次数，将出现次数最多的匹配项组合为最佳的2D人员匹配方案。

从上述描述可知，虽然存在误差，但是不同相机对同一关节点的反投影射线之间也应该靠的很近，若是超过了预设距离阈值，则认为不属于同一关节点，这样既不会影响关节点匹配的准确性，也能因为减少了端点个数而减少算法的计算量，以进一步提高处理速度和工作效率；同时，端点聚类算法采用密度聚类算法，算法仅要求设置领域半径参数，不需要预先给定簇的数量，通过该聚类算法及组合优化算法生成人员匹配方案，可最大程度的识别场景内的人员个数。

进一步地，所述根据最佳的所述2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息具体包括以下步骤：

遍历所述2D人员匹配方案的每一个匹配项，获取每一个所述匹配项中每一个关节点所包括的2D关节点坐标信息和对应的相机参数信息；

依据多相机视觉三维测量技术将多个所述2D关节点坐标信息计算成3D三维空间坐标，得到3D关节点信息；

根据所述3D关节点信息，计算重投影误差，将所述重投影误差超过预设投影误差的所述3D关节点信息进行过滤；

直至遍历完每一个所述匹配项中的所有关节点，根据保留下来的所有所述3D关节点信息生成一个人员的3D信息；

直至遍历完所有所述匹配项后，则得到与所述匹配项数量对应的多个人员的3D信息。

从上述描述可知，当两个人员距离很近时，容易出现其中一个关节点同时属于两个人员，由此将这样的关节点进行删除，从而得到两个人员各自的关节点团簇，以降低误识别的出现概率，提高3D重建的准确性。

进一步地，还包括以下步骤：

获取当前同步视频帧和下一同步视频帧所分别得到的多个人员的3D信息，判断上下两个同步视频帧中每一个人员的人体重心位置的偏移距离是否小于预设最大运动距离阈值，若是，则根据所述下一同步视频帧的每一个人员的人体重心位置来更新历史人员位置集合中人员唯一ID所对应的位置信息；

若所述下一同步视频帧的某一人员与所述当前同步视频帧中所有的人员的人体重心位置的偏移距离均大于所述预设最大运动距离阈值，则将其认定为新出现人员，为所述新出现人员赋予一个新的人员唯一ID，并将所述新出现人员的位置信息增加至所述历史人员位置集合；

若所述当前同步视频帧的某一人员与所述下一同步视频帧中所有的人员的人体重心位置的偏移距离均大于所述预设最大运动距离阈值，则将其认定为离开人员，从所述历史人员位置集合中移除所述离开人员所对应的人员唯一ID的位置信息。

从上述描述可知，通过人员唯一ID和上下帧的人体重心位置的偏移距离，从而跟踪到人员3D位置信息。

本发明另一实施方式提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的多人三维动作捕捉方法。

请参照图13、本发明另一实施方式提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的多人三维动作捕捉方法。

其中，关于上述两种实施方式中的计算机程序所包含的图像缩放方法的具体实现过程和对应效果，可以参照前面实施方式的多人三维动作捕捉方法中的相关描述。

由此，以下实施例在一个场景内设置有多个相机，以对该场景内的人员进行三维动作捕捉，比如VR场景下的多人三维动作捕捉等等，具体如下：

请参照图1至图11，本发明的实施例一为：

一种多人三维动作捕捉方法，包括步骤：

S1、获取多个相机的同步视频帧，对每一个相机的每一张同步视频帧分别进行关节点识别及定位，得到每一个相机下每一个人员的2D关节点信息；

在本实施例中，在需要进行三维动作捕捉的场景中假设多个相机，并获取多个相机的同步视频帧，其中，每一个视频帧为3通道BGR格式图像。设A＝{n|1≤n≤N}，A为相机的集合，n为相机序号。在本实施例中，相机设置有12个，在其他等同实施例中，相机的个数可以根据实际需求进行设置。

在本实施例中，利用OpenPose检测出所有相机中每一个人体的关节点并定位，获得每个相机下每个人员的2D关节点信息。其中，每个相机识别到的2D人员个数分别为Kⁿ，设k表示为人员编号，其取值范围为1...Kⁿ。设X＝{Rnode_nk|n∈A，1≤k≤Kⁿ}表示为所有相机识别到的2D人员，Rnode_nk表示为识别到的2D人员，每个3D人员的重建输入参数由一组2D人员组成并且2D人员所属相机无交集。由于进入场景的人员不确定，则需要进行多组2D人员的匹配。

其中，如图9所示，在2D点匹配算法中，对关节点置信度进行阈值过滤，过滤去除误识别的关节点，该方法，能让用户改变设置阈值条件过滤，解决因场地干扰而造成的误识别现。其中，置信度的阈值可以根据现场场景或者实际应用进行灵活设置。

S2、计算每一个2D关节点的反投影射线，根据反投影射线之间为最短距离时的两个端点坐标来进行聚类，以得到最佳的2D人员匹配方案，反投影射线为2D关节点所对应的相机指向2D关节点的射线；

在本实施例中，不同相机对同一关节点的反投影射线之间应当重合，但是基于观测误差以及2D识别的误差，不同相机对同一关节点的反投影射线之间有可能不会重合，但肯定会靠的很近，因此，通过反投影射线之间为最短距离时的两个端点坐标来进行聚类，可以判断不同相机中的关节点的匹配关系，从而确定不同相机内不同人员的对应关系，得到2D人员匹配方案，这样，既对场景内的不同视角进行采集识别，并通过不同相机对同一关节点的反投影射线之间应当重合的原理进行最短距离的计算和聚类，以对不同相机的多个关节点进行正确匹配对应，从而解决了密集场景下存在的遮挡、2D误识别而导致2D点集匹配问题，实现了对多人的动作捕捉。

S3、根据最佳的2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息，以进行三维动作捕捉。

请参照图1至图11，本发明的实施例二为：

一种多人三维动作捕捉方法，在上述实施例一的基础上，本实施例的进一步限定如下：

其中，步骤S2具体包括以下步骤：

S21、对所有2D关节点信息按照关节点类型进行划分，以得到每一个关节类型所对应的所有2D关节点信息；

如图5所示，对于OpenPose来说，所识别的2D关节点由25类组成，因此，本实施例中的关节点类型为25类。在其他实施例中，若根据实际需求进行适当的选择关节点类型，也属于本申请的等同实施例。

S22、对每一个关节点类型的每一个2D关节点信息分别进行反投影射线的计算，根据反投影射线之间的最短距离来进行聚类，以得到每一个关节点类型的关节点匹配方案；

在本实施例中，25类的2D关节点分别进行只对同关节点类型的关节点进行匹配计算，从而减少了匹配运算次数，提高处理速度。尤其是在人员的数量较多时，能明显提高处理速度。

S23、合并所有关节点类型的关节点匹配方案，以得到最佳的2D人员匹配方案。

即将25类的关节点匹配方案得到一个2D人员匹配方案，该2D人员匹配方案包括若干个匹配项，该匹配项的个数和进入场景的人数相同。

请参照图1至图11，本发明的实施例三为：

一种多人三维动作捕捉方法，在上述实施例二的基础上，如图2所示，本实施例的进一步限定如下：

如图3所示，步骤S22具体包括以下步骤：

S221、对每一个2D关节点，根据坐标原点和对应的相机外参得到相机3D坐标，将相机3D坐标作为反投影射线的端点，根据对应的相机内参、相机外参和每一个2D关节点的2D关节点坐标信息获得反投影射线的方向向量，以得到每一个2D关节点的反投影射线。

在本实施例中，计算出过2D关节点uv_nk的反投影射线，nv_nk∈Rnode_nk。

其中，反投影射线由相机3D坐标和2D关节点uv_nk上的方向向量组成。

其中，相机3D坐标P_n可由相机外参乘坐标原点计算获得，其公式为：P_n＝extrinsic_n*O。其中，extrinsic_n为相机外参，O为坐标原点(0，0，0)。

其中，方向向量可由2D关节点坐标信息、所属相机内参和外参计算获得，其公式如下：其中，intrinsic_n为相机内参。

S222、分别对每一个相机中的每一个2D关节点的反投影射线与同一关节点类型下其他相机中的每一个2D关节点的反投影射线进行两两最短线段的计算，并获得两条反投影射线之间为最短线段时的两个端点的端点坐标；

在本实施例中，依据多相机视觉的基本原理，多相机观测到的某个人员某个3D关节点，其反投影射线必定相交于该关节点上，但是基于观测误差以及2D识别的误差，不同相机对同一关节点的反投影射线之间有可能不会重合，但肯定会靠的很近。由此，在3D空间上，3D关节点附近应当聚集着大量的端点。

在本实施例中，如图12所示，应当知道的是，两条反投影射线之间的距离是空间两条之间的距离，对于图12所示似乎有相交的点，但在三维空间内可能为不相交，因此，图12仅作为计算时的图示。由此，获得两条反投影射线之间为最短线段时的两个端点的端点坐标具体包括以下步骤包括如下步骤：

S2221、反投影射线的起点坐标和方向向量分别为s₀和/>反投影射线/>的起点坐标和方向向量分别为t₀和/>则反投影射线/>的向量表达式为/>反投影射线/>的向量表达式为/>

S2222、假设反投影射线和反投影射线/>之间为最短线段时的两个端点的端点坐标分别为s_j和t_j，则两个端点坐标的向量表达式为/>和/>记向量/>则反投影射线/>和反投影射线/>之间的最短线段的向量表达式为第一公式：/>s_c和t_c为标量；

S2223、将最短线段的向量表达式分别代入到和/>得到第二公式和第三公式，第二公式为/>第三公式为/>记则得到标量s_c＝(be-cd)/(ac-b²)和标量t_c＝(ae-bd)/(ac-b²)；

S2224、判断ac-b²是否等于0，若是，则反投影射线和反投影射线/>为平行关系，则在任意一条反投影射线上指定一固定点作为其中一个端点，代入第二公式和第三公式即可得到两个端点坐标s_j和t_j，否则根据标量S_c＝(be-cd)/(ac-b²)和标量t_c＝(ae-bd)/(ac-b²)求得两个端点坐标s_j和t_j。

当ac-b²等于0，则反投影射线和反投影射线/>为平行关系，两者之间的距离为常数，因此任意选取一个端点进行计算得到的距离都是一样的。

S223、对每一个关节点类型内的所有端点进行聚类，以输出聚类结果，根据聚类结果组合生成每一个关节点类型的关节点匹配方案。

在本实施例中，步骤S223具体包括以下步骤：

S2231、在得到任意两条反投影射线之间为最短线段时的两个端点坐标时，根据两个端点坐标s_j和t_j得到最短线段的最短距离d_min＝|s_j-t_j|；

S2232、将每一个关节点类型内最短距离d_min超过预设距离阈值的最短线段进行过滤删除，将每一个关节点类型内保留下来的最短线段所对应的端点形成端点集合R，每一个端点对应于2D关节点、相机标识和人员标识；

S2233、通过k最邻近分类算法对每一个关节点类型内的端点集合R内的所有端点进行近邻匹配，以得到近邻端点所形成的簇团，按照每一个簇团内端点数量的多少，由高往低地对簇团进行排序，得到每一个关节点类型内排序后的簇团信息；

其中，在本实施例中，将根据空间上的稠密度进行聚类，用户输入的唯一参数是ε(Eps)邻域。实现该方法具体如下：

通过k最邻近分类算法knn求得端点与端点之间的距离，假定ε(Eps)邻域内最多出现两个端点，那么knn取值可设为：

搜索完毕后，遍历结果集，使用ε(Eps)过滤搜索结果中的近邻距离，给每个端点生成近邻匹配关系；

之后对端点的近邻匹配关系进行排序；

依次抽出未处理的端点，并找出该端点密度直达的近邻端点形成一个簇团，直到所有的近邻匹配关系处理完毕。最后按密度由高往低排序将簇团进行排序，输出簇团信息，其效果如图8所示。

S2234、对每一个关节点类型分别进行匹配方案的生成：获取当前匹配项，遍历每一个簇团中每一个端点，若所遍历的端点未被当前匹配项使用且当前匹配项没有所遍历的端点的相机标识，则在当前匹配项中增加端点，直至簇团中的每一个端点均遍历完成，则得到每一个关节点类型的关节点匹配方案；

在本实施例中，簇团中的每个端点，都可对应到一个2D关节点uv_nk、2D人员Rnode_nk。当算法开始运行时，设Rnode_availabe表示未使用2D关节点集合，当前匹配项由m_current表示，Rnode_availabe＝X，m_current＝Φ；遍历每个端点Rnode_nk，根据相机的互斥原则，若端点未被使用，且当前匹配项m_current没有相同相机的端点，则m_current+＝Rnode，Rnode_availabe-＝Rnode；遍历簇团中所有端点，直到端点处理完毕退出，到此为止匹配项生成。

依次处理完所有簇团，或Rnode_availabe＝Φ时，算法工作完毕生成多个匹配项，完成匹配方案的生成。

其中，在本实施例中，如图10所示，为五个人员左手关节的匹配方案。

S2235、合并所有关节点类型的关节点匹配方案，以得到最佳的2D人员匹配方案具体包括以下步骤：

在本实施例中，需要对25组关节点匹配方案进行合并，具体方法为：统计25组匹配方案中所有匹配项，根据匹配项出现次数进行排序；当算法开始运行时，匹配方案为空M＝Φ；之后依次遍历匹配项m，若m与匹配方案不冲突，则将该匹配项加入到方案中，公式如下：

isConflict(m，M)为冲突函数。

如图4所示，步骤S3具体包括以下步骤：

S31、遍历2D人员匹配方案的每一个匹配项，获取每一个匹配项中每一个关节点所包括的2D关节点坐标信息和对应的相机参数信息；

S32、依据多相机视觉三维测量技术将多个2D关节点坐标信息计算成3D三维空间坐标，得到3D关节点信息；

S33、根据3D关节点信息，计算重投影误差，将重投影误差超过预设投影误差的3D关节点信息进行过滤；

S34、直至遍历完每一个匹配项中的所有关节点，根据保留下来的所有3D关节点信息生成一个人员的3D信息；

S35、直至遍历完所有匹配项后，则得到与匹配项数量对应的多个人员的3D信息。

其中，如图6和图7所示，使用4个摄像机+2个保龄球进行3D重建的过程演示，其中，摄像机由左往右[0-3]依次编号，画面中的保龄球2D点编号为：[0-0]、[0-1]、[1-0]、[1-1]、[2-0]、[2-1]、[3-0]和[3-1]。其中，保龄球3D重建正确2D匹配方案应当为：{0-1，1-0，2-0，3-0}，{0-0，1-1，2-1，3-1}。

如图7所示，4个摄像机+2个保龄球则有8个保龄球2D点，每个点对应一条反投影射线，每条直线与不同摄像机的直线求最短直线距离。可得最短线段24条，共计48个端点，将密度聚类算法的半径为0.2米，则可聚类出13个结果，其中两个结果的端点个数如圆圈内所示为12个，该12个点刚好为4条直线间最短线段的端点，则根据接近点聚类结果，生成2D点匹配方案：

第0组聚类结果：{0-1,1-0,2-0,3-0}

第1组聚类结果：{0-0,1-1,2-1,3-1}。

以上的2D点匹配方案与预期一致，从而实现对保龄球2D点的准确识别。

如图11所示，在实际应用场景中，本实施例以四个相机加两个人员的应用场景进行说明，四个相机从左往右依次为0、1、2和3，两个人员分别为0和1，则则最终的匹配方案应当为:{0-0,1-0,2-1,3-0},{0-1,1-1,2-0,3-1}。

通过关节点的识别和匹配关系的计算，最终得到25组匹配方案分别如表1所示：

表一：25组匹配方案

根据以上分析{0-1，1-1，2-0，3-1}，{0-0，1-0，2-1，3-0}为大多数关节点匹配的方案，其高达21次，并且其他节点的匹配方案属于该方案子集，所以选择该{0-1，1-1，2-0，3-1}，{0-0，1-0，2-1，3-0}的人员匹配方案，与预期方案一致。

请参照图1至图11，本发明的实施例四为：

一种多人三维动作捕捉方法，在上述实施例三的基础上，本实施例还包括以下步骤：

S36、获取当前同步视频帧和下一同步视频帧所分别得到的多个人员的3D信息，判断上下两个同步视频帧中每一个人员的人体重心位置的偏移距离是否小于预设最大运动距离阈值，若是，则根据下一同步视频帧的每一个人员的人体重心位置来更新历史人员位置集合中人员唯一ID(Identity document，身份标识)所对应的位置信息；

S37、若下一同步视频帧的某一人员与当前同步视频帧中所有的人员的人体重心位置的偏移距离均大于预设最大运动距离阈值，则将其认定为新出现人员，为新出现人员赋予一个新的人员唯一ID，并将新出现人员的位置信息增加至历史人员位置集合；

S38、若当前同步视频帧的某一人员与下一同步视频帧中所有的人员的人体重心位置的偏移距离均大于预设最大运动距离阈值，则将其认定为离开人员，从历史人员位置集合中移除离开人员所对应的人员唯一ID的位置信息。

在本实施例中，假设历史人员位置集合为LC，初始运行时LC＝Φ；下一帧识别到一组人员3D信息P，计算出该组人员的中心位置信息C＝{c^*}，c表示为单个人员的中心位置，其计算公式为通过近邻搜索算法，求得LC、C中各人员中心相互位置距离，公式d(c，c′)＝|c-c′|，c∈C，c′∈LC，其中c表示C中人员中心位置，c′为历史人员LC中人员中心位置；设人员最大运动距离D_max，若存在d(c，c′)≤D_max意即人员中心位置距离的改变小于阈值，c与c′视为同一个人员，更新人员c′的中心位置；对于/>c与LC任何人员的距离都大于阈值，c为新出现人员，给该人员生成ID，LC加入该人员；对于c′与C任何人员的距离都大于阈值，c′视为离开人员，LC移除该人员。

本发明的实施例五为：

本发明另一实施方式提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例一至四中任一实施例的多人三维动作捕捉方法。

请参照图13，本发明的实施例六为：

一种电子设备1，包括存储器3、处理器2及存储在存储器3上并可在处理器2上运行的计算机程序，处理器2执行计算机程序时实现上述实施例一至四中任一实施例的多人三维动作捕捉方法。

综上所述，本发明提供的多人三维动作捕捉方法、存储介质及电子设备，通过OpenPose姿态检测，采用深度卷积网络进行体态检测，不借助于任何的穿戴设备，就可以进行人体姿态检测；而采集多个相机对场景内的不同视角进行采集识别，并通过不同相机对同一关节点的反投影射线之间应当重合的原理进行最短距离的计算和聚类，以对不同相机的多个关节点进行正确匹配对应，从而解决了密集场景下存在的遮挡、2D误识别而导致2D点集匹配问题，实现了对多人的动作捕捉。同时，通过按照关节点类型对多个关节点进行分类、设置预设距离阈值进行过滤、置信度过滤、端点聚类算法采用密度聚类算法以及遮挡的关节点删除等进一步限定，从而能提高处理速度、提高工作效率且能保证识别的准确性。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多人三维动作捕捉方法，其特征在于，包括步骤：

根据最佳的所述2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息，以进行三维动作捕捉；

所述根据最佳的所述2D人员匹配方案进行每一个人员的3D重建，生成每一个人员的3D信息具体包括以下步骤：

2.根据权利要求1所述的多人三维动作捕捉方法，其特征在于，所述计算每一个2D关节点的反投影射线，根据所述反投影射线之间为最短距离时的两个端点坐标来进行聚类，以得到最佳的2D人员匹配方案具体包括以下步骤：

对所有所述2D关节点信息按照关节点类型进行划分，以得到每一个所述关节点类型所对应的所有所述2D关节点信息；

3.根据权利要求1所述的多人三维动作捕捉方法，其特征在于，所述计算每一个2D关节点的反投影射线具体包括以下步骤：

4.根据权利要求2所述的多人三维动作捕捉方法，其特征在于，所述根据所述反投影射线之间的最短距离来进行聚类，以得到每一个所述关节点类型的关节点匹配方案包括以下步骤：

5.根据权利要求4所述的多人三维动作捕捉方法，其特征在于，所述获得两条反投影射线之间为最短线段时的两个端点的端点坐标具体包括以下步骤包括如下步骤：

所述反投影射线的起点坐标和方向向量分别为/>和/>，所述反投影射线/>的起点坐标和方向向量分别为/>和/>，则所述反投影射线/>的向量表达式为/>，所述反投影射线/>的向量表达式为/>；

所述反投影射线和所述反投影射线/>之间为最短线段时的两个端点的端点坐标分别为/>和/>，则两个所述端点坐标的向量表达式为/>和/>，记向量，则所述反投影射线/>和所述反投影射线/>之间的最短线段的向量表达式为第一公式：/>，所述/>和所述/>为标量；

将所述最短线段的向量表达式分别代入到和/>得到第二公式和第三公式，所述第二公式为/>，所述第三公式为/>，记/>，则得到所述标量s_c=(be-cd)/(ac-b²)和所述标量t_c=(ae-bd)/(ac-b²)；

判断所述ac-b²是否等于0，若是，则所述反投影射线和所述反投影射线/>为平行关系，则在任意一条所述反投影射线上指定一固定点作为其中一个端点，代入所述第二公式和所述第三公式即可得到两个所述端点坐标/>和/>，否则根据所述标量s_c=(be-cd)/(ac-b²)和所述标量t_c=(ae-bd)/(ac-b²)求得两个所述端点坐标/>和/>。

6.根据权利要求4所述的多人三维动作捕捉方法，其特征在于，所述对每一个所述关节点类型内的所有所述端点进行聚类，以输出聚类结果，根据所述聚类结果组合生成每一个所述关节点类型的关节点匹配方案具体包括以下步骤：

在得到任意两条所述反投影射线之间为最短线段时的两个端点坐标时，根据两个所述端点坐标和/>得到所述最短线段的最短距离d_min=|s_j-t_j|；

7.根据权利要求1所述的多人三维动作捕捉方法，其特征在于，还包括以下步骤：

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的多人三维动作捕捉方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-7任意一项所述的多人三维动作捕捉方法。