CN111695523A

CN111695523A - 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法

Info

Publication number: CN111695523A
Application number: CN202010539760.5A
Authority: CN
Inventors: 王洪雁; 张鼎卓; 袁海; 汪祖民
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-09-22
Anticipated expiration: 2040-06-15
Also published as: CN111695523B

Abstract

本发明公开了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法，计算机视觉图像与视频处理领域，用于解决复杂场景下基于骨骼信息动作识别方法识别率低的问题，要点是：(1)输入骨骼序列，将所获取的骨骼序列进行坐标系转换；(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图；(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征；基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类，效果是对具有视角变化、丰富噪声以及细微差别动作等复杂场景，可有效提高动作识别准确率。

Description

基于骨骼时空及动态信息的双流卷积神经网络动作识别方法

技术领域

本发明属于计算机视觉图像与视频处理领域，涉及一种基于骨骼空时及动态特征并结合双流卷积神经网络(Two-Stream-CNN，TS-CNN)的动作识别方法。

背景技术

作为计算机视觉领域的研究热点，人体动作识别在智能监控、人机交互、视频检索等领域具有重要的应用价值。其中主要面临以下几个技术难点：由于光照变化和杂乱背景等因素使得此类方法鲁棒性较差。深度图像信息冗余度较大，从而增加了算法计算复杂度，进而限制了此类方法的实际应用。并且由于深度传感器捕获的原始骨骼信息中含有噪声且关节间空时信息模糊，如何经由三维骨骼数据有效提取运动信息以识别人体动作仍面临巨大挑战。基于手工提取特征的识别动作方法所提取特征较为单一，因而识别精度较为有限且普适性较差；基于RNN良好的时间序列建模能力，利用RNN构建动作识别模型，然而RNN无法有效表达关节间空域关系；基于CNN强大的空域特征提取能力，利用CNN从骨架序列编码图像中抽取动作特征，将每个关节信息独立编码为彩色图像，传统方法将骨骼序列编码为彩色纹理图时主要由以下几个问题：首先，每个关节信息被独立编码为彩色图像，但忽略了关节间相关信息；其次，忽略了关节之间空间约束，从而使得关节空域信息混乱，进而导致识别精度有限；最后，仅关注关节静态特征，忽略其动态特性，且没有考虑各关节对动作完成的参与度不同，从而使得运动信息编码不完整，关节空域显著性信息丢失，进而导致动作识别率较为有限。

发明内容

为解决上述问题，本发明提出了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法，能够解决复杂场景下基于骨骼信息动作识别方法识别率低的问题。

本发明采用以下技术方案：一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法，该方法包括以下步骤：

(1)输入骨骼序列，将所获取的骨骼序列进行坐标系转换。

(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图，具体是：

(2.1)基于人体结构约束，将关节相对坐标与绝对坐标编码为骨骼空时特征图。

(2.2)将相同时间步长下的关节速度信息编码为关节运动速度图。

(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征。

(4)基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。

进一步的，所述步骤(1)具体为：

由深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系，对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系，其方法是：

构造以运动幅度较小的髋关节为原心的身体坐标系，对于具有N个关节点，F帧的视频序列，关节坐标变换可表示为：

其中，

分别为坐标系变换前后第f帧关节j的坐标信息，

为髋关节第f帧的坐标信息。

进一步的，所述步骤(2)具体为：

所述步骤(2.1)中，将关节绝对坐标及关节之间相对坐标联合编码为彩色纹理图，构成表征动作空时域特性的骨骼空时特征图，其方法是：

基于坐标转换后的骨骼序列

关节相对位置由下式获得：

其中，

是第f帧中第j个关节相对第i个关节的三维坐标，表示为第j，i个关节相连骨骼的空间信息，当i＝1时，

为第j个关节的绝对坐标，

第j个关节的空时特征由矩阵Q_{j_i}表示为：

只选取相关度较高的一、二级相关信息，一、二级相关信息分别如下式所示：

R₁＝[Q_{h_k},Q_{j_i},…,Q_{m_n}],R₂＝[Q_{p_o},Q_{u_v},…,Q_{y_x}] (4)

其中，h，k；j，i；m，n表示仅由一条边相连的关节对，p，o；u，v；y，x表示由两条边相连的关节对。

按照身体结构排列坐标信息，将身体所有关节分为如下五组：左臂、右臂、左腿、右腿、躯干，每组按照关节间物理连接顺序排列，由此编码顺序得骨骼空时特征图为：

其中，k为动作类别，A为关节点绝对坐标，

令

中三维坐标分别对应R、G、B三通道，将骨骼空时特征E_k转换为72×F的骨骼空时特征图。

所述步骤(2.2)中，提取各关节速度信息以表征动作动态特性，基于速度标量信息构建表征关节运动特性的特征描述符，f帧内关节在x，y，z三方向的速度值表示如下：

其中，

为关节在f+Δf帧时的三维坐标值。Δf为时间步长，Δt为：

式中，FPS为所采用摄像机的帧速。

将v_x、v_y、v_z分别对应至R、G、B，编码关节运动信息为N×(F-Δf)维的关节运动速度图。

进一步的，所述步骤(3)具体为：

(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息，具体为：

第k类动作序列期间，坐标为

的关节i于第f帧所具有的瞬时能量为：

其中，f＞1。||·||表示欧氏距离，关节i在整个动作序列中运动能量为：

基于运动能量

第i个关节色彩权重

可由下式获得：

式中，

分别为第k类动作序列期间所有关节运动能量的最大值及最小值。

按照所述编码顺序，将第k类动作中所有关节色彩权重Ω^k编码为运动增强权值：

增强骨骼空时特征图表示为：

(3.2)基于形态学算子增强关节运动速度特征图纹理信息以提升速度估计性能，其方法是：

首先对关节运动速度图进行腐蚀运算以消除噪声作如下操作：

其中，X为二值图像，Θ表示腐蚀运算，E为结构元素。由公式(12)对步骤(2.2)所得f帧内关节在x，y，z三方向的速度值v_x、v_y、v_z进行腐蚀运算：

I_v＝[v_xΘE v_yΘE v_zΘE] (13)

其中I_v表示腐蚀后的关节运动速度图

对腐蚀后图像再进行膨胀运算：

式中，J_v表示腐蚀并膨胀后的关节运动速度图，Θ表示腐蚀运算，

表示膨胀运算。

进一步的，所述步骤(4)具体为：

双流卷积神经网络模型是AlexNet模型，AlexNet模型的第一层、第三层及第四层中神经元个数分别是64、256、256，将骨骼空时特征图及关节运动速度图分别作为动静流的输入，通过卷积层、池化层、全连接层处理后，将单流CNN所生成的后验概率融合为最终识别结果。

进一步的，将骨骼空时特征图及关节运动速度图分别作为动静流的输入，通过卷积层、池化层、全连接层处理后，将单流CNN所生成的后验概率融合为最终识别结果，其方法是：

给定骨骼序列S_m处理分别得到骨骼空时特征图和关节运动速度图，并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取，基于CNN所提取的深度特征输出至最后一层全连接层，而后由Softmax函数对其归一化处理，得后验概率为：

其中，

为第m个骨骼序列的图像

属于第n类动作的概率，

表示最后一层全连接层第n个神经元的输入，x表示骨骼空时特征图或关节运动速度图，N为动作类别数。

双流卷积神经网络模型每次输出n个

和

对每流输出采用乘法融合以获得最终分类结果：

ActionClass＝Fin(Max(P_SSTM⊙P_JMSM)) (16)

其中，Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子，SSTM表示骨骼空时特征图，JMSM表示关节运动速度图，P_SSTM为静态流softmax输出值，P_JMSM为动态流softmax输出值，二者分别表示为：

有益效果：本发明基于空时及动态特征的动作识别，对每类动作的坐标系变换；构建骨骼空时特征、运动特征描述符；增强骨骼空时特征图中具有明显移动特征的关节空域信息并利用形态学算子增强关节运动速度图以消除噪声；基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。在本发明中，由于选取相对稳定的关节作为坐标原点变换骨骼序列坐标系，所得身体坐标系可有效表征关节间相关信息，并利用此相关信息，构建骨骼空时特征图；在编码骨骼序列时加入身体结构约束，极大的提高了不同类动作间的识别率；此外，加入骨骼动态信息后更加全面表征动作特征信息，使得本发明整体识别率显著提升；最后，通过运动显著性增强以减小同类动作间的差异，降低相似动作间的错误识别率。与主流人体动作识别方法相比，本发明在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别率。

附图说明

图1为本发明方法主要框架流程示意图。

图2为Kinect坐标系骨骼坐标。

图3为身体坐标系关节可视化。

图4为标注25个人体关节。

图5为关节距离图及所提骨骼空时特征图：图5的a1为关节距离图；图5的a2为骨骼空时特征图。

图6为图像增强彩色纹理图：图6的b1为骨骼空时特征图运动增强；图6的b2为关节运动速度图视觉增强。

图7为双流卷积神经网络模型。

具体实施方式

以下结合附图对本发明作进一步说明。

本发明中，基于骨骼空时及动态信息的双流卷积神经网络动作识别方法的流程如附图1所示，实现步骤如下：

(1)将骨骼序列进行坐标系转换，得到以髋关节为坐标原点的身体坐标系；

由Kinect等深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系，如图2所示需对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系，具体为：

构造以运动幅度较小的髋关节为原心的身体坐标系。对于具有N个关节点，F帧的视频序列，关节坐标变换可表示为：

其中，

分别为坐标系变换前后第f帧关节j的坐标信息，

为髋关节第f帧的坐标信息。变换后关节可视化如图3所示。

(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图；

步骤(2.1)：将关节间相对坐标及关节绝对坐标联合编码为彩色纹理图，构成表征动作空时域特性的骨骼空时特征图，其方法为：

基于坐标转换后的骨骼序列

关节相对位置可由下式获得：

其中，

表示第f帧中第j个关节相对第i个关节的三维坐标，同时还表示第j，i个关节相连骨骼的空间信息。此外，当i＝1时，

为第j个关节的绝对坐标，即

基于以上所述，第j个关节的空时特征可由矩阵Q_{j_i}表示为：

本发明中，只选取相关度较高的一、二(即只有一条或两条边相连的关节对)级相关信息，以降低计算复杂度，减少类间混淆，提升类内鲁棒性。一、二级相关信息分别如下式所示：

R₁＝[Q_{h_k},Q_{j_i},…,Q_{m_n}],R₂＝[Q_{p_o},Q_{u_v},…,Q_{y_x}] (21)

其中，h，k；j，i；m，n等表示仅由一条边相连的关节对，如左手腕与左手肘、左脚腕与左膝盖等，p，o；u，v；y，x等表示由两条边相连的关节对，如左手腕与左肩、左脚与左膝等。

由于CNN的感受区域随网络深度增加而增大，因此相关度较大的关节对间空域信息应该在浅层提取，而相关度较低的空域信息则应在深层获取。提出的关节距离图，如图5的a1所示，将关节信息按照固定顺序排列为彩色图像而忽略相对空域信息不同，按照身体结构排列坐标信息，将所有关节分为如下五组：左臂、右臂、左腿、右腿、躯干，每组按照关节间物理连接顺序排列，如图4所示。以右臂为例，关节点[25,24,12,11,10,9]在图4中相邻，因而相关度较高，将其分为一组可更为有效地提取其间空域关系特征。基于以上所述，所得骨骼空时特征图可有效编码关节的空时域信息，如图5的a2所示。

基于编码后骨骼序列可得骨骼空时特征图为：

其中，k为动作类别，A为关节点绝对坐标，

令

中三维坐标分别对应R、G、B三通道，则可将骨骼空时特征E_k转换为72×F的骨骼空时特征图。

(2.2)提取各关节速度信息以表征动作动态特性，基于速度标量信息构建表征关节运动特性的特征描述符。f帧内关节在x，y，z三方向的速度值可表示如下：

其中，

为关节在f+Δf帧时的三维坐标值；Δf为时间步长，Δt为：

式中，FPS为所采用的Kinect摄像机的帧速。

将v_x、v_y、v_z分别对应至R、G、B，则可编码关节运动信息为N×(F-Δf)维的关节运动速度图。

(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征的方法，来提升不同动作的类间差异，同时降低同类动作的类内差异；

第k个动作序列期间，坐标为

的关节i于第f帧所具有的瞬时能量为：

其中，f＞1；||·||表示欧氏距离。由此可得，关节i在整个动作序列中运动能量为：

基于运动能量

第i个关节色彩权重

可由下式获得：

式中，

分别为第k个动作序列期间所有关节运动能量的最大值及最小值。

按照上述编码顺序，将第k类动作中所有关节色彩权重Ω^k编码为运动增强权值：

增强骨骼空时特征图可表示为：

图6的b1所示，运动能量高的关节相关信息所对应色彩被增强，而运动能量低的关节色彩信息则被虚化，因此，采用所提自适应增强方式使得骨骼空时特征图具有运动显著性特征，从而可提高动作分类能力。

(3.2)基于形态学算子增强运动特征图纹理信息以提升速度估计性能。所提方法首先对关节运动速度图进行腐蚀运算以消除噪声，即：

其中，X为二值图像，Θ表示腐蚀运算，E为结构元素。

由公式(12)对步骤(2.2)所得v_x、v_y、v_z进行腐蚀运算，即：

I_v＝[v_xΘE v_yΘE v_zΘE] (30)

对腐蚀后图像再进行膨胀运算以还原并平滑原始纹理从而有效减小类内速度差异。加入膨胀运算，可得：

其中I_v表示腐蚀后的关节运动速度图；

表示膨胀运算。

图6的b2所示，相较于原始图像(第一行)，增强后图像(第二行)的纹理更加平滑，且在保持原有纹理基本不变情况下，有效剔除无用信息，从而缩小同类动作间差异。

(4)构建基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类；

双流卷积神经网络模型由两个改进的AlexNet构成，如图7所示，将AlexNet中第一层、第三层及第四层中神经元个数分别由96、384、384改为64、256、256，构成本发明中的双流卷积神经网络模型。

将骨骼空时特征图及关节运动速度图分别作为动静流的输入，通过卷积层、池化层、全连接层处理后，将单流CNN所生成的后验概率融合为最终识别结果。

给定骨骼序列S_m，经由上述处理可分别得到骨骼空时特征图和关节运动速度图，并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取。基于CNN所提取的深度特征输出至最后一层全连接层，而后由Softmax函数对其归一化处理，可得后验概率为：

其中，

为第m个骨骼序列的图像

属于第n类动作的概率，

所提模型中，每次输出n个

和

对每流输出采用乘法融合以获得最终分类结果：

ActionClass＝Fin(Max(P_SSTM⊙P_MSM)) (34)

其中，Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子，，SSTM表示骨骼空时特征图，JMSM表示关节运动速度图，P_SSTM为静态流softmax输出值，P_JMSM为动态流softmax输出值，二者分别表示为：

本发明的基于骨骼时空及动态信息的双流卷积神经网络动作识别方法，首先变换骨骼三维坐标系以获得包含关节相对位置的坐标信息；其次，将关节间相关信息编码为彩色纹理图以构建骨骼空时特征描述符，并考虑人体物理结构约束以增加类间差异；而后，估计各关节速度信息，并将其编码为彩色纹理图以获得骨骼运动特征描述符；此外，基于运动显著性及形态学算子分别增强所得空时及动态特征以进一步提升特征表达能力；最后，增强后的骨骼空时及动态特征经由双流卷积神经网络深度融合以实现动作识别。针对具有视角变化、丰富噪声以及细微差别动作等复杂场景，本发明可有效提高动作识别准确率。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。