CN112307892A

CN112307892A - 一种基于第一视角rgb-d数据的手部动作识别方法

Info

Publication number: CN112307892A
Application number: CN202011018265.6A
Authority: CN
Inventors: 杨谦; 许屹; 郑星; 华晓; 严伟雄; 张晓�; 汪勇; 周伟红; 许潜航; 杨永峰; 黄炎阶; 段凌霄
Original assignee: Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2021-02-02

Abstract

本发明提出一种基于第一视角RGB‑D数据的手部动作识别方法，包含以下步骤：佩戴RGB‑D传感器采集多个的视频片段；将RGB‑D传感器采集到数据进行预处理，并进行数据增强，制作对应的标签，形成数据集；将不同动作进行尺寸统一处理后，针对RGB图像序列提取空间信息；计算RGB图像序列中两个相邻帧之间的光流，得到对应的光流图像序列，基于Resnet网络提取光流图像的时序信息；采用注意力机制的方法提取深度图像序列的图像序列结构信息；针对三种数据提取到的特征，采用多模态学习网络，分别提取他们的共有信息和特有信息进行训练，最后融合共有信息和特有信息，对动作进行识别。本发明可以充分结合RGB视频和深度视频的信息，具有更好的鲁棒性和更高的识别准确率。

Description

一种基于第一视角RGB-D数据的手部动作识别方法

技术领域

本发明涉及计算机视觉的行为识别技术领域，尤其涉及一种基于第一视角RGB-D数据的手部动作识别方法。

背景技术

传统的第三视角视频往往对远距离目标成像的分辨率不高，易受遮挡、光照等因素干扰，难以支持后续的识别、跟踪等视觉任务。基于第一视角能够获取高分辨RGBD视频图像，可以自主移动以寻求遮挡少的最优视角，并保持视线集中在手部周围，这些特性从数据上为实现高精度的动作识别奠定了基础。现在的手部动作识别方法更倾向于将手的运动特征和操作的对象统一进行识别。Minghuang Ma等人通过深度卷积神经网络(CNN)的使用，提出了一个基于第一视角的双流网络框架，其中一个子网络分析手部和操作对象的外观信息，另一个子网络分析操作人头部和手部的运动信息，可以同时获取对象属性和手部运动特征。Suriya Singh等人提出了一个基于第一视角动作识别的三流网络框架，第一个网络是提取操作者手部和头部的运动信息，第二个网络和第三个网络分别是提取图像中的空间信息和时间信息。Guillermo Garcia-Hernando等人研究了基于第一视角的手部动作识别，在实验中收集了超过100000帧RGB-D视频序列，其中包括45个日常动作类别，涉及26个不同的物体。RGB-D动作识别和3D姿态估计都是相对较新的领域，这是首次尝试将它们与完整的人体相关联。现有的动作识别方法大多是基于第三视角的，第一视角的识别方法相对较少。并且现有的基于第一视角的方法都是处理RGB数据或者骨架数据，但是真实场景中高精度的骨架数据获取比较困难，精度不够高的骨架数据会严重影响后续的识别结果。当前方法中将RGB数据和深度数据结合的方法很少，其他方法的识别准确率和鲁棒性都有待提高。

发明内容

本发明解决了真实场景中高精度的骨架数据获取困难严重影响后续的识别结果的问题，提出一种基于第一视角RGB-D数据的手部动作识别方法，针对RGB-D数据可以充分结合RGB视频和深度视频的信息，基于第一视角克服了传统第三视角视频中分辨率低和遮挡的问题，此方法具有更好的鲁棒性和更高的识别准确率。

为实现上述目的，提出以下技术方案：

一种基于第一视角RGB-D数据的手部动作识别方法，包含以下步骤：

步骤1，佩戴RGB-D传感器采集多个的视频片段，包括RGB视频片段和深度视频片段，将RGB视频片段和深度视频片段进行图像转换，得到单帧的RGB图像序列和单帧的深度图像序列，并将RGB图像序列和深度图像序列进行配准；

步骤2，将RGB-D传感器采集到数据进行预处理，并进行数据增强，制作对应的标签，形成数据集；

步骤3，将不同动作进行尺寸统一处理后，针对RGB图像序列提取空间信息；采用基于注意力机制的方法对图像序列进行特征提取，并通过LSTM网络提取RGB图像的时序信息；

步骤4，计算RGB图像序列中两个相邻帧之间的光流，得到对应的光流图像序列，基于Resnet网络提取光流图像的时序信息；

步骤5，采用注意力机制的方法提取深度图像序列的图像序列结构信息；

步骤6，针对三种数据提取到的特征，采用多模态学习网络，分别提取他们的共有信息和特有信息进行训练，最后融合共有信息和特有信息，对动作进行识别。

基于可见光的手部动作识别容易受到光照和背景变化影响，本发明充分利用RGB-D摄像机所提供的深度信息，其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征，提高在复杂条件下动作识别的准确度。本发明在针对于RGB图像序列处理时，采用了注意力机制，利用CNN预训练对物体识别编码中的先验信息，得到不同区域的概率图，与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。本发明实现了多模态特征的融合，相比于只利用空间信息或者时序信息的特征，结合RGB空间信息，光流图像的时序信息，深度图像的结构信息，可以做到信息互补，实现精度高，鲁棒性强的识别效果。

作为优选，所述步骤3具体包括：

利用CNN网络预训练对物体识别编码中的先验信息，得到不同区域的权重；引用了CAM类激活映射，在特征提取的CNN网络的最后一个卷积层中，将一个单元l在空间位置i的激活值定义为f_l(i)，

为单元l中类别c对应的权重，CAM可以表示为

基于Resnet-34作为主干网络，对于每一帧RGB图像帧进行CAM计算，并在空间维度上进行softmax操作，将CAM转换成概率图后，将得到的attention map注意力热图和最后一层卷积层输出图融合，得到加权后的特征图，最后将每一帧的特征图输入到LSTM网络，并对时序信息进行提取。

本发明在针对于深度图像处理时，将注意力机制内置在LSTM中，并且修改了输出门，这对连续帧中attention map的提取效果更平滑，在改进递归单元的输出门之后，不仅影响整体预测，而且控制了递归，有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪，对于基于深度数据提取结构信息的效果提升显著。

作为优选，所述步骤4具体包括：

使用TVL1算法计算RGB视频的两个相邻帧之间的光流，光流找到图像中每个像素点的速度向量，根据光流的微小运动和亮度恒定的假设，得到I(x,y,t)＝I(x+dx,y+dy,t+dt)，用一介泰勒展开,如下式

令

在

的假设下，使用最小二乘法，求解光流；在视频的整张图片帧上提取相邻帧的光流，再去除不相关的噪声动作；得到光流图像后，针对光流图像序列提取时序信息，以光流栈的形式将每5张光流图叠加到一起，输入到Resnet网络，进行图像序列的时序信息提取。

作为优选，所述步骤5具体包括：对LSTM网络结构进行修改，在输入部分，对特征X_t进行

池化操作，得到一个对应的值υ_a，将其输送到RNN网络，结合前一帧的a_t-1，s_t-1可以得到a_t，s_t；根据a_t，s_t结合υ_a经过softmax函数可以得到此帧的attention map注意力热图s，将s和X_t融合得到提取后的特征图；结合前一帧的c_t-1，o_t-1可以得到此帧的c_t，o_t；通过

池化操作耦合输入门和输出门部分，最后将υ_c⊙c_t作为网络的输出；其中X_t是输入特征，a_t是RNN网络中的记忆状态，s_t是RNN网络中的输出状态，c_t是LSTM网络中的记忆状态，o_t是LSTM网络中的输出状态，υ_a和υ_c是互相耦合的池化操作。

作为优选，所述步骤6具体包括：

每个网络中提取的特征表示为

其中X_i表示第i个模态中的特征，K是模态总数；将融合函数定义为：X→h(X)；引入了两类中间特征

和g(X)，其中g(X)包含不同模态的共有特征如下式表示：

对于特征X和特征函数g_i(X_i)之间的关系，如下式表示：

其中F为非线性函数，W_i和b_i分别代表权重矩阵和偏置矩阵；

对不同数据源采用Cauchy estimator计算数据之间的相关性，如下式表示

表示不同模态的独有特征，和g_i(X_i)相似，如下式表示：

采用正交性约束，来计算不同数据的特有信息，将这两部分和原来的多分类交叉熵函数加权相加，构成整个网络的loss函数；

Φ_d(f_i(X_i),f_j(X_j))＝|f_i(X_i)⊙f_j(X_j)|

Φ_d(f_i(X_i),g_i(X_i))＝|f_i(X_i)⊙g_i(X_i)|

对这两个中间特征分配不同的权重，最后加权融合得到融合特征，融合函数如下式所示；

0≤α₁,α₂,...,α_K,β≤1

其中超参数α和β对应中间特征的权重。

作为优选，所述共有特征和特有特征的权重比为4:1。

作为优选，所述特有特征中，通过以RGB数据：光流数据：深度数据＝4:4:2的权重进行加权融合，再通过加权融合后的信息来预测动作标签，得到识别的结果。

本发明的有益效果是：

1、基于可见光的手部动作识别容易受到光照和背景变化影响，本发明充分利用RGB-D摄像机所提供的深度信息，其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征，提高在复杂条件下动作识别的准确度。

2、本发明在针对于RGB图像序列处理时，采用了注意力机制，利用CNN预训练对物体识别编码中的先验信息，得到不同区域的概率图，与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。

3、本发明在针对于深度图像处理时，将注意力机制内置在LSTM中，并且修改了输出门，这对连续帧中attention map的提取效果更平滑，在改进递归单元的输出门之后，不仅影响整体预测，而且控制了递归，有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪，对于基于深度数据提取结构信息的效果提升显著。

4、本发明实现了多模态特征的融合，相比于只利用空间信息或者时序信息的特征，结合RGB空间信息，光流图像的时序信息，深度图像的结构信息，可以做到信息互补，实现精度高，鲁棒性强的识别效果。

附图说明

图1是本发明的总流程图。

图2是针对RGB数据的特征提取网络示意图。

图3是针对深度数据的特征提取网络示意图。

图4是多模态学习网络示意图。

具体实施方式

实施例：

本实施例提出一种基于第一视角RGB-D数据的手部动作识别方法，包含以下步骤：

步骤3具体包括：

为单元l中类别c对应的权重，CAM可以表示为

步骤4具体包括：

令

在

步骤5具体包括：对LSTM网络结构进行修改，在输入部分，对特征X_t进行

步骤6具体包括：

每个网络中提取的特征表示为

和g(X)，其中g(X)包含不同模态的共有特征如下式表示：

对于特征X和特征函数g_i(X_i)之间的关系，如下式表示：

其中F为非线性函数，W_i和b_i分别代表权重矩阵和偏置矩阵；

表示不同模态的独有特征，和g_i(X_i)相似，如下式表示：

Φ_d(f_i(X_i),f_j(X_j))＝|f_i(X_i)⊙f_j(X_j)|

Φ_d(f_i(X_i),g_i(X_i))＝|f_i(X_i)⊙g_i(X_i)|

0≤α₁,α₂,...,α_K,β≤1

其中超参数α和β对应中间特征的权重。共有特征和特有特征的权重比为4:1。特有特征中，通过以RGB数据：光流数据：深度数据＝4:4:2的权重进行加权融合，再通过加权融合后的信息来预测动作标签，得到识别的结果。

下面结合附图和具体实施例，对本发明的具体实施方式做进一步详细说明，以下实施例用于说明本发明，但不用来限制发明的范围。

本发明的思路是对采集的RGB-D数据预处理，然后提取RGB图像的空间信息，光流图像的时序信息，深度图像的结构信息，并结合这些提取的特征信息学习不同模态的共同特征和独自特征，最后将特征信息融合，预测视频中动作的类别。参考图1，具体包括以下几个步骤：

步骤1，佩戴RGB-D传感器采集多个的视频片段，将RGB数据和对应的深度数据进行配准。

本发明采集系统方案采用CPU+ToF深度传感器+RGB图像采集设备的硬件架构。在此架构中，CPU负责系统的初始化并对ToF传感器和RGB图像采集设备进行管理配置，并且实现对深度相位数据进行进一步处理计算得到深度图像，以及深度图像和RGB图像的配准工作。ToF深度传感器负责获取场景深度相位数据。RGB图像采集设备负责采集场景RGB可见光图像。

步骤2，将采样得到RGB-D数据进行预处理，并进行数据增强，手动标记相应的标签，形成数据集。

因为采集系统佩戴在头部的缘故，所以随着人的运动，头的摆动，以及视线的转移，都会使得采集到的视频抖动比较严重，为了高精度的识别，对采集得到的原视频进行视频稳像处理，并对转换后的图像进行去噪处理，可以为后续高精度的识别提供基础。

在电力工业行业的场景中，相关的视频数据比较少，训练出有效的模型需要大量的数据集，所以还需要对得到的RGB数据和深度数据进行数据增强。对已有的数据进行处理，比如翻转、平移或旋转，创造出更多的数据，网络训练出来的模型泛化能力更强。

并且对每一段视频制作标签，记录动作的类别，动作序列的开始帧数和结束帧数。

步骤3，将不同动作的进行尺寸统一处理后，针对RGB图像序列提取空间信息，如图2所示，采用基于注意力机制的方法，利用CNN预训练对物体识别编码中的先验信息，得到不同区域的权重。在此本发明使用了CAM(类激活映射)，在进行特征提取的CNN网络的最后一个卷积层中，将一个单元l在空间位置i的激活值定义为f_l(i)，

为单元l中类别c对应的权重，CAM可以用式(1)表示

本发明中提取图像区域中得分最高的类别，CAM产生的图像就代表了图像的显著性图，可以使网络针对于被操作的物体附近的区域进行训练，本发明基于Resnet-34作为主干网络，对于每一帧RGB图像进行CAM计算，然后在空间维度上进行softmax操作，如式(2)表示。将CAM转换成概率图，然后将得到的attention map(注意力热图)和最后一层卷积层输出图融合，得到特征图。然后将每一帧的特征图输入到LSTM网络，对时序信息进行提取。

其中，f(i)是特征提取网络最后一个卷积层在i位置上的输出，M_c(i)是类别c在位置i的CAM，f_SA(i)为经过空间注意力机制加权后的图像特征。

获取了图像特征之后，下一步就是对每一帧的特征进行时序编码，本发明使用LSTM网络来执行该操作，该网络在其他方法中已经被广泛应用，本发明中用到的convLSTM的工作原理和传统的LSTM类似。用convLSTM网络进行时序编码，可以同时观测到空间和时序两个维度上的变化，convLSTM模块的工作如下公式表示。

h_t＝o_t⊙tanh(c_t)(8)

其中，σ是sigmoid函数，i_t，f_t，o_t，c_t和h_t代表convLSTM网络输入状态，遗忘状态，输出状态，记忆状态，隐藏状态。W，b表示训练时的权重和偏置。在convLSTM网络中的记忆状态c_t用来保存整个视频的特征，然后进行空间平均池化操作得到整段视频的特征描述符。用来表示整段RGB视频的特征信息。

步骤4，使用TVL1算法计算RGB视频的两个相邻帧之间的光流，光流找到图像中每个像素点的速度向量，根据光流的微小运动和亮度恒定的假设，得到I(x,y,t)＝I(x+dx,y+dy,t+dt)，用一介泰勒展开,如下式(9)表示。

另

在

的假设下，使用最小二乘法，求解光流。在视频的整张图片帧上提取相邻帧的光流，然后去除不相关的噪声动作。为了去除传感器的震动带来的噪声，本发明通过设置连续帧之间的光流点的位移值将其过滤。得到光流图像后，针对光流图像序列提取时序信息，以光流栈的形式将每5张光流图叠加到一起，输入到Resnet网络，进行图像序列的时序信息提取。

步骤5，针对深度图像序列提取结构信息。采用注意力机制的方法，相比于处理RGB数据不同的是，将注意力机制内置在LSTM网络中，并且修改了输出门，这使连续深度帧中attention map的提取效果更平滑，在改进递归单元的输出门之后，不仅影响整体预测，而且控制了递归，有助于对序列中的潜在记忆状态进行平滑和跟踪。

如图3所示，对LSTM网络结构进行修改，在输入部分，对特征X_t进行

池化操作，得到一个对应的值υ_a，将其输送到RNN网络，结合前一帧的a_t-1，s_t-1可以得到a_t，s_t。根据a_t，s_t结合υ_a经过softmax函数可以得到此帧的attention map注意力热图s，将s和X_t融合就可以得到提取后的特征图。结合前一帧的c_t-1，o_t-1可以得到此帧的c_t，o_t。通过

池化操作耦合输入门和输出门部分，最后将υ_c⊙c_t作为网络的输出。过程如下：

(i_a,f_a,s_t,a)＝(σ,σ,σ,η)(W_a*[υ_a,s_t-1⊙η(a_t-1)]) (11)

a_t＝f_a⊙a_t-1+i_a⊙a (12)

s＝softmax(υ_a+s_t⊙η(a_t)) (13)

(i_c,f_c,c)＝(σ,σ,η)(W_c*[s⊙X_t,o_t-1⊙η(c_t-1)]) (14)

c_t＝f_c⊙c_t-1+i_c⊙c (15)

o_t＝σ(W_o*[υ_c⊙c_t,o_t-1⊙η(c_t-1)]) (17)

其中X_t是输入特征，a_t是RNN网络中的记忆状态，s_t是RNN网络中的输出状态，c_t是LSTM网络中的记忆状态，o_t是LSTM网络中的输出状态，υ_a和υ_c是互相耦合的池化操作。σ和η均为激活函数。

步骤6，将从多模态数据源中提取到的特征进行融合，分别提取他们的共有信息和特有信息进行训练，最后可以对图像中的动作进行识别。

如图4所示，本实施例将从步骤3,4,5中每个网络中提取的特征表示为

其中X_i表示第i个模态中的特征，K是模态总数，这里取3。本发明将融合函数定义为：X→h(X)，它将输入特征X合并为输出特征h(X)。为了充分挖掘不同模态的共有特征和独有特征，本发明引入了两类中间特征

和g(X)，其中g(X)包含不同模态的共有特征如下式(18)表示。

对于特征X和特征函数g_i(X_i)之间的关系，如下式(19)表示。

其中F为非线性函数，W_i和b_i分别代表权重矩阵和偏置矩阵。

考虑到第一视角视频中，光照的变化和头部运动引起的摄像机运动会造成少部分数据的异常，直接采用L1范数和L2范数鲁棒性不够高，在共同特征的学习方面，对不同数据源采用Cauchy estimator计算数据之间的相关性，相对于L1，L2范数更加平滑，如(20)表示

表示不同模态的独有特征，和g_i(X_i)相似；如下式(21)表示。

在特有特征的学习方面，采用正交性约束(orthogonality constraints)，如(22)表示，来计算不同数据的特有信息，不仅使每个数据的特有信息之间相互独立，特有信息和共有信息之间也相互独立。将这两部分和原来的多分类交叉熵函数加权相加，构成整个网络的loss函数。

对这两个中间特征分配不同的权重，最后加权融合得到融合特征，融合函数如下式(23)和(24)所示。

其中超参数α和β对应中间特征的权重。

在本发明中，根据实验结果，在网络融合权重选择中，共有信息部分和特有信息部分采用4:1的比例，在特有信息融合部分中RGB数据流，光流数据，深度数据流比例为2：2：1。

最后将共有特征和独有特征加权求和，然后输入一个softmax函数来预测动作标签，得到识别的结果。

本发明的有益效果是：