CN118037965A

CN118037965A - 多目视觉下基于自动变分校正的人体内3d姿态分析方法

Info

Publication number: CN118037965A
Application number: CN202410448843.1A
Authority: CN
Inventors: 陈凯; 赵晓冬; 黄煜杰; 朱海华; 唐敦兵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2024-04-15
Filing date: 2024-04-15
Publication date: 2024-05-14
Anticipated expiration: 2044-04-15
Also published as: CN118037965B

Abstract

本发明实施例公开了多目视觉下基于自动变分校正的人体内3D姿态分析方法，涉及智能制造技术领域，能够提高行人3D姿态点检测的准确性与建模的真实性。本发明包括：在各视角下检测人体内3D姿态点并通过真实相机参数投影至三维空间；对三维空间中人体内的姿态点数据进行去噪处理；对处理后的数据进行分步训练1获取初步人体3D建模结果；再对处理后的数据通过分步训练2获取重建后的3D姿态点；采用联合训练，通过重建后的3D姿态点对初步人体3D建模结果进行校正，实现精确的人体姿态点检测与真实平滑的建模结果。本发明适用于密集行人场景中的行人姿态点检测与建模。

Description

多目视觉下基于自动变分校正的人体内3D姿态分析方法

技术领域

本发明涉及智能制造技术，数字化工厂以及增强现实等领域，尤其涉及一种多目视觉下基于自动变分校正的人体内3D姿态分析方法。

背景技术

目前，科学技术迅速发展，城市化水平显著提高，智能设备需要与现实世界进行交互，比如无人驾驶，智能化工厂数字孪生建模等技术，由于实际场景的复杂多变，给多目标人体姿态检测与建模带来了很大挑战。

一方面，由于人体动作的过度自主性与灵活性以及面对遮挡时的姿态不确定性，当前大部分二维姿态点检测算法已经不能满足实际需求，如增强现实与虚拟现实等技术都要求实现实时的行人在3D空间中的姿态点检测；另一方面，姿态点检测的好坏也进一步影响了后续人体3D建模的工作，对于较差的检测结果，其建模在人体局部位置表现为扭曲形态以及连续建模抖动等问题。因此亟需一种在多目视觉下的三维姿态点检测与建模方法，在空间场中实现精确的行人姿态点检测与真实平滑的建模结果。现有的多目标检测算法大多都是从人体表面展开，主要从准确率，计算资源以及算法上进行改进。但是面对目标受遮挡以及目标与姿态点相匹配的问题时则无法很好地解决。在建模方面，虽然现有方法在重建误差，每秒浮点运算次数(FLOPs)等方面取得了较好的建模效果，但是当遮挡较多，目标层叠关系较为复杂时，仍然容易产生局部姿态的失真，以及连续建模时的抖动等现象。

因此，如何在密集行人空间下实现精确的人体姿态点检测与真实平滑的建模结果，成为了需要研究解决的问题。

发明内容

本发明的实施例提供一种多目视觉下基于自动变分校正的人体内3D姿态分析方法，能够在空间场中实现精确的行人姿态点检测与真实平滑的建模结果。

为达到上述目的，本发明的实施例采用如下技术方案：

S1、采集各视角下的目标行人的人体内3D姿态点，并通过真实相机参数将所述人体内3D姿态点投影至三维空间；

S2、对所述三维空间中的投影结果进行去噪处理；

S3、通过分步训练1获取初步人体3D建模结果；

S4、通过分步训练2获取潜在空间分布特征；

S5、利用重建后的3D姿态点对所述初步人体3D建模结果进行校正，实现精确的人体姿态点检测与真实平滑的建模结果。

其中，在S1中，包括：利用MVSPIN人体渲染模型从采集到的人体内3D姿态点中提取人体姿态点坐标矩阵，所述人体姿态点坐标矩阵包含6890个顶点；通过SMPL模型获取联合回归先验矩阵；利用所述人体姿态点坐标矩阵和所述联合回归先验矩阵，获取24个3D预测姿态点坐标；利用预测相机矩阵将24个3D预测姿态点坐标还原至同视角的原图像中，获取目标行人的24个2D姿态点坐标；根据所述2D姿态点坐标，通过真实相机矩阵参数重新投影至所述三维空间。

所述利用预测相机矩阵将24个3D预测姿态点坐标还原至同视角的原图像中，获取目标行人的24个2D姿态点坐标，包括：将预测的3D相机参数转换为3×4的相机预测矩阵；对3D预测姿态点增加至四维后进行矩阵变换得到姿态点矩阵，其中，将24×4的姿态点矩阵转换为包含预测的3D相机参数的1×24×4×1矩阵；将所述姿态点矩阵与所述相机预测矩阵相乘，得到相机方向上的姿态点坐标矩阵，维度为1×24×3×1；舍弃所述相机方向的深度信息，并通过矩阵变换得到2D姿态点坐标，其中，通过矩阵变换为剔除深度信息的2D姿态点坐标，其维度为1×24×2×1。

所述根据所述2D姿态点坐标，通过真实相机矩阵参数重新投影至所述三维空间，其中包括：利用两个不同视角的2D姿态点通过三角剖分计算得到1个3D投影点，其中，k个视角的2D姿态与对应的真实矩阵通过三角投影得到k(k-1)/2组3D姿态点，之后可以利用K-means聚类算法排除误差，之后将剩余的姿态点取均值，得到该目标在空间中的3D姿态点。

在S2中，包括：依序提取每帧投影结果中ID相同的行人关节点i的数据，N为行人出现的次数；通过卡尔曼滤波对行人关节点i的数据进行滤波处理。

所述通过卡尔曼滤波对行人关节点i的数据进行滤波处理，包括：初始化滤波参数，所述滤波参数包括：控制输入B，过程噪声Q，测量矩阵H和控制输入u _k；对行人关节点i的数据和状态协方差矩阵P _k进行状态预测，其中，， />，F为状态转移矩阵；根据状态预测的结果进行状态更新，其中， />，，Z _k为测量值，Z _k为卡尔曼增益，R为测量噪声协方差矩阵，I为单位矩阵，协方差的更新方式为： />。

在S3中，所述分步训练1，包括：将经过去噪处理的3D姿态点X作为输入，以地面真值作为标准，采用梯度下降的迭代优化方式对SMPL参数进行训练，并获取人体的网格顶点verts和人体关节点坐标J，其中verts大小为n×6890×3，J大小为n×24×3，n为建模时场景中的目标数量；考虑到行人活动的高度自主性和无规律性，采用针对异常值具有强鲁棒性的Smooth L1 Loss作为损失函数，X _gt为人体关节点的地面真实值。

在S4中所述分步训练2，包括：

将经过去噪处理的3D姿态点X作为输入，并确定重构所需潜在变量，为编码器定义的潜在变量分步；

根据潜在变量的分布特征获取重构人体3D姿态点， />为生成器定义的条件分步；

通过损失函数

对参数Θ_V(φ _en,φ _de)进行训练，获得重构后的姿态点X^’ _end，α为权衡参数，p(z)为先验分布，φ _en为编码器参数，φ _de为解码器参数。

在S5中，包括：对参数Θ(Θ_S,Θ_V)进行联合训练得到校正后的人体姿态点X^’ _end，采用的损失函数为，Θ_S表示SMPL参数。

本发明实施例提供的基于自动变分校正的人体内3D姿态检测与建模方法，将行人在空间场中的姿态点检测与建模需求与深度学习计算机视觉领域的功能相结合，更精确地检测人体姿态点同时更加真实平滑地建模。本发明包括：在各视角下检测人体内3D姿态点并通过真实相机参数投影至三维空间；对三维空间中人体内的姿态点数据进行去噪处理；对处理后的数据进行分步训练1获取初步人体3D建模结果；再对处理后的数据通过分步训练2获取重建后的3D姿态点；采用联合训练，通过重建后的3D姿态点对初步人体3D建模结果进行校正，实现精确的人体姿态点检测与真实平滑的建模结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的姿态点检测与建模效果图；

图2为本发明实施例提供的人体内3D姿态点检测整体框架示意图；

图3为本发明实施例提供的2D姿态点还原流程示意图；

图4为本发明实施例提供的3D姿态点回归流程示意图；

图5为本发明实施例提供的卡尔曼滤波处理效果对比图，图5中的（a）表示未进行卡尔曼滤波的部分姿态点轨迹示意图，（b）表示已经过卡尔曼滤波的部分姿态点轨迹示意图；

图6为本发明实施例提供的人体3D建模整体框架示意图；

图7为本发明实施例提供的姿态点检测在关键帧中的效果示意图，图中的纵坐标标号（a）~（d）表示4个关键帧，图中的横坐标分别表示每个关键帧所对应的不同视角；

图8为本发明实施例提供的人体3D建模效果对比图；

图9为本发明提供的方法流程示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语）具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本发明实施例提供一套多目视觉下基于自动变分校正的人体内3D姿态检测与建模方法，如图1、2，6所示，包括：

S1、各视角下检测人体内3D姿态点并通过真实相机参数投影至三维空间；

S2、对三维空间中人体内的姿态点数据进行去噪处理；

S3、对处理后的数据进行分步训练1获取初步人体3D建模结果；

S4、再对处理后的数据通过分步训练2获取重建后的3D姿态点；

S5、采用联合训练，通过重建后的3D姿态点对初步人体3D建模结果进行校正，实现精确的人体姿态点检测与真实平滑的建模结果。

本实施例中，在S1中，所述各视角下检测人体内3D姿态点并通过真实相机参数投影至三维空间，其中包括：基于MVSPIN人体渲染模型获取包含6890个顶点的人体姿态点坐标矩阵；通过SMPL模型获取联合回归先验矩阵；根据所述两个矩阵解算目标行人的24个3D预测姿态点坐标并获取所预测的相机矩阵；根据所述预测相机矩阵将24个3D预测姿态点坐标还原至同视角原图像中，获取目标行人的24个2D姿态点坐标；根据所述2D姿态点坐标，通过真实相机矩阵参数重新投影至三维空间。

具体的，如图7所示的，输入各视角已匹配行人ID的二维图像，通过MVSPIN模型获取基于平面图像每帧中目标的SMPL人体渲染模型。在渲染模型中，可以得到6890个人体表面姿态点坐标矩阵以及联合回归先验矩阵，其中联合回归先验矩阵为一个稀疏矩阵，包含了人体关节点之间的相对位置信息，有助于使得人体姿态的估计达到一个更好的水平。

通过两矩阵即可获取一组24个3D姿态点坐标，如公式：pose_pre_result=J_ regressor_priorc×v_posed，式中，J_regressor_prior为联合回归先验矩阵，其大小为24×6890，v_posed为SMPL模型生成的人体表面姿态点坐标其大小为6890×3，所得到的pose_ pre_result为24个姿态点3D坐标。所述MVSPIN模型基于单视图对三维姿态点检测，单视角下具有的局限性使得纵向深度方向存在误差。此外，由于相机角度、遮挡等原因，不同视角的图像对于所预测的三维位姿和原始图像之间也存在偏差。因此本实施例中通过每个目标SMPL模型构建过程中生成的预测相机矩阵，将3D预测坐标还原至2D图像中，以消除所述可能存在的误差。

所述将3D预测坐标还原至2D图像中，其中包括：如图3所示的，(a)为摄像机预测参数通过单位矩阵变换为3×4摄像机预测矩阵；(b)为将SMPL模型预测的三维位姿点转化为1×24×3×1位姿矩阵；(c)将两个矩阵相乘，得到平面二维位姿点1×24×2×1的坐标。本文通过构造一个4×4单位矩阵，将预测的3D姿态点进行矩阵变换，并与摄像机预测矩阵相乘，得到在图像预测的相机方向上的姿态点坐标。为了消除深度预测的误差，本实施例中消除相机方向的深度分量，得到2D姿态点坐标。这种方法保证了单个目标位姿点的完整性，并且考虑了行人的厚度，为之后从2D姿态到3D姿态的回归打下了良好的基础。

所述通过真实相机矩阵参数重新投影至三维空间，其中：由于在多视角进行3D姿态点的检测，因此无需深度数据，仅基于各视角垂直投影的2D坐标通过真实相机矩阵参数进行投影即可计算3D空间坐标。如图4所示，输入各单视角的2D姿态点坐标，每两个视角的2D姿态点可以通过三角剖分计算得到1个3D投影点，k个视角的2D姿态与其对应的真实矩阵通过三角投影可以得到k(k-1)/2组3D姿态点；利用K-means聚类算法排除误差较大的点，将剩余姿态点取均值，最终得到空间中人体内的3D姿态点。相较于通过人体表面的姿态点检测，该3D姿态点能够更加真实表征行人在空间中的真实位置，对于行人轨迹预测以及空间模拟等应用具有现实意义。

本实施例中，在S2中，所述对三维空间中人体内的姿态点数据进行去噪处理，具体的，由于人的行动具有自主意识，不受外部的干预和控制，因此控制输入B和过程噪声协方差Q都是以3×3的零矩阵的初始形态参与预测和更新的，同时观测状态是直接通过测量矩阵H测量得到的，没有通过复杂的非线性变换。因此将H初始化为3×3的单位矩阵，用初始观测值对状态向量进行初始化，并将状态协方差矩阵设置为一个较大的值，以反映对初始状态的不确定性。

整个滤波过程分预测和更新两步进行，状态预测：通过x ⁱ _k=F×x ⁱ _k-1+B×u _k和P _k=F×P _k-1×F ^T+Q对所述行人关节点i的数据x ⁱ _k,k=1,…,N,i=1,…,24以及状态协方差矩阵P _k进行预测。式中：F为状态转移矩阵；状态更新：根据所述状态预测中的结果，通过和/>来校正预测的状态估计，式中：Z _k为测量值，K _k为卡尔曼增益，R为测量噪声协方差矩阵，I为单位矩阵，。通过P _k=(I-K _k×H)×P _k以实现对协方差的更新。如图5中的（a）和（b）所示，最终获得了姿态良好且连续建模平滑的3D人体姿态点，为人体3D建模奠定了良好的基础。

由于所述S1和S2中的都是针对每个目标整体的全局处理，未施加局部处理，如果直接采用这些姿态点对人体进行3D建模，对于人体关节局部姿态的建模将会失真。因此，提出了SMPL-VAE模型，如图6所示，它将分步训练与联合训练相结合来生成人体3D建模结果。两路分步训练将输入的姿态点通过不同的方式进行处理，再通过联合训练得到最终的建模结果。

本实施例中，在S3中，所述对处理后的数据进行分步训练1获取初步人体3D建模结果，具体的，考虑到行人活动的高度自主性和无规律性，需要一个对异常值鲁棒性强的损失函数，因此本实施例中采用了Smooth L1 Loss作为损失函数：。式中：J为模型输出的人体关节点坐标；X _gt为人体关节点的地面真实值。

训练过程中采用滤波后的3D姿态点X作为输入，以地面真值作为标准，采用梯度下降的迭代优化方式对SMPL参数Θ _s (θ _， β)进行训练，不断拟合数据获得人体的网格顶点verts以及人体关节点坐标J，其中verts大小为n×6890×3，n为建模时场景中的目标数量，J大小为n×24×3。但在人体的局部关节处，依旧存在违背人体运动学规律的现象，仍没有满足最终的建模需求。

本实施例中，在S4中，所述再对处理后的数据通过分步训练2以获取重建后的3D姿态点，其中包括：编码阶段中学习输入数据X的潜在空间表示，解码过程中对人体姿态点的重构。

具体的，编码阶段中与S3同样将滤波后的3D姿态点X作为输入，将其压缩到更低维度的空间，捕获重构所需潜在变量z~q(z∣X)。式中：q(z∣X)为编码器定义的潜在变量分步；解码阶段根据潜在变量的分布特征获取重构人体3D姿态点X^’ _V~p(X∣z)，保持关键结构的同时也不会损害人体3D建模全局与局部的真实性。式中：p(X∣z)为生成器定义的条件分步；训练过程中通过损失函数对参数Θ_V(φ _en,φ _de)进行训练，获得重构后的姿态点X^’ _end，α为权衡参数，p(z)为先验分布，φ _en为编码器参数，φ _de为解码器参数。损失函数包括两个部分：重建损失和正则化损失。重建损失是指在VAE中，将输入样本通过编码器转化为潜在变量后，再通过解码器生成输出样本时，输出样本与原始样本之间的差异。重建损失越小，表示生成器的性能越好。正则化损失则是指在VAE中，通过引入KL散度衡量潜在变量的分步与先验分步之间的差异。这个差异用KL散度来量化，KL散度越小，表示潜在变量越接近于先验分步。

在本实施例中，在S5中，所述采用联合训练，通过重建后的3D姿态点对初步人体3D建模结果进行校正，具体的，对参数Θ(Θ_S,Θ_V)进行联合训练从而得到校正后的人体姿态点X^’ _end，采用与所述S3中相同的损失函数Smooth L1 Loss,。最终的对比效果如图8所示，(a)中人体3D建模的结果在Shape-Aware和SMPL方法上的表现都表现为局部姿态的扭曲，如上半身形态扭曲，腿部形态失真以及脚的非正常扭动，但是在SMPL-VAE中则得到了很好地校正。并且Shape-Aware在(b)出现了漏检的情况，在(c)中，Shape-Aware在人体姿态点检测的过程中出现问题，导致了后续错误的建模结果，SMPL中蓝色的人身体扭曲失真，并且橙色的人建模结果与实际在搬动货架的形态不符，而这些在SMPL-VAE中都得到了改善。这种联合训练模式允许了两种方法之间的知识转移。参数的迭代细化通过VAE施加的放松约束得到增强，整体模型的优良结果受益于调整局部建模效果的能力。这种结合训练方法不仅提高了姿态估计的准确性，而且确保了模型能够适应人类运动的多样性，有助于更自然和直观的人与数字环境之间的互动。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多目视觉下基于自动变分校正的人体内3D姿态分析方法，其特征在于，包括：

S2、对所述三维空间中的投影结果进行去噪处理；

S3、通过分步训练1获取初步人体3D建模结果；

S4、通过分步训练2获取潜在空间分布特征；

S5、利用重建后的3D姿态点对所述初步人体3D建模结果进行校正。

2.根据权利要求1所述的方法，其特征在于，在S1中，包括：

利用MVSPIN人体渲染模型从采集到的人体内3D姿态点中提取人体姿态点坐标矩阵，所述人体姿态点坐标矩阵包含6890个顶点；

通过SMPL模型获取联合回归先验矩阵；

利用所述人体姿态点坐标矩阵和所述联合回归先验矩阵，获取24个3D预测姿态点坐标；

利用预测相机矩阵将24个3D预测姿态点坐标还原至同视角的原图像中，获取目标行人的24个2D姿态点坐标；

根据所述2D姿态点坐标，通过真实相机矩阵参数重新投影至所述三维空间。

3.根据权利要求2所述的方法，其特征在于，所述利用预测相机矩阵将24个3D预测姿态点坐标还原至同视角的原图像中，获取目标行人的24个2D姿态点坐标，包括：

将预测的3D相机参数转换为3×4的相机预测矩阵；

对3D预测姿态点增加至四维后进行矩阵变换得到姿态点矩阵，其中，将24×4的姿态点矩阵转换为包含预测的3D相机参数的1×24×4×1矩阵；

将所述姿态点矩阵与所述相机预测矩阵相乘，得到相机方向上的姿态点坐标矩阵；

舍弃所述相机方向的深度信息，并通过矩阵变换得到2D姿态点坐标。

4.根据权利要求2所述的方法，其特征在于，所述根据所述2D姿态点坐标，通过真实相机矩阵参数重新投影至所述三维空间，其中包括：

利用两个不同视角的2D姿态点通过三角剖分计算得到1个3D投影点，其中，k个视角的2D姿态与对应的真实矩阵通过三角投影得到k(k-1)/2组3D姿态点。

5.根据权利要求1所述的方法，其特征在于，在S2中，包括：

依序提取每帧投影结果中ID相同的行人关节点i的数据,N为行人出现的次数；

通过卡尔曼滤波对行人关节点i的数据进行滤波处理。

6.根据权利要求5所述的方法，其特征在于，所述通过卡尔曼滤波对行人关节点i的数据进行滤波处理，包括：

初始化滤波参数，所述滤波参数包括：控制输入B，过程噪声Q，测量矩阵H和控制输入u _k；对行人关节点i的数据和状态协方差矩阵P _k进行状态预测，其中， ,F为状态转移矩阵；

根据状态预测的结果进行状态更新，其中，，，Z _k为测量值，K_k为卡尔曼增益，R为测量噪声协方差矩阵，I为单位矩阵，协方差的更新方式为：/>。

7.根据权利要求1所述的方法，其特征在于，在S3中，所述分步训练1，包括：

将经过去噪处理的3D姿态点X作为输入，以地面真值作为标准，采用梯度下降的迭代优化方式对SMPL参数进行训练，并获取人体的网格顶点verts和人体关节点坐标J，其中verts大小为n×6890×3，J大小为n×24×3，n为建模时场景中的目标数量；损失函数为：，X _gt为人体关节点的地面真实值。

8.根据权利要求1所述的方法，其特征在于，在S4中所述分步训练2，包括：

将经过去噪处理的3D姿态点X作为输入，并确定重构所需潜在变量， />为编码器定义的潜在变量分步；

通过损失函数对参数Θ_V(φ _en,φ _de)进行训练，获得重构后的姿态点X^’ _end，α为权衡参数， p(z)为先验分布，φ _en为编码器参数，φ _de为解码器参数。

9.根据权利要求1所述的方法，其特征在于，在S5中，包括：对参数Θ(Θ_S,Θ_V)进行联合训练得到校正后的人体姿态点X^’ _end，采用的损失函数为，Θ_S表示SMPL参数。