CN112307892A - 一种基于第一视角rgb-d数据的手部动作识别方法 - Google Patents
一种基于第一视角rgb-d数据的手部动作识别方法 Download PDFInfo
- Publication number
- CN112307892A CN112307892A CN202011018265.6A CN202011018265A CN112307892A CN 112307892 A CN112307892 A CN 112307892A CN 202011018265 A CN202011018265 A CN 202011018265A CN 112307892 A CN112307892 A CN 112307892A
- Authority
- CN
- China
- Prior art keywords
- information
- rgb
- data
- network
- optical flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000000007 visual effect Effects 0.000 title claims abstract description 13
- 230000003287 optical effect Effects 0.000 claims abstract description 61
- 230000009471 action Effects 0.000 claims abstract description 21
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 6
- 101100194606 Mus musculus Rfxank gene Proteins 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000012886 linear function Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000005286 illumination Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 241001620684 Guillermo Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 235000020294 guillermo Nutrition 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/30—Determination of transform parameters for the alignment of images, i.e. image registration
- G06T7/38—Registration of image sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于第一视角RGB‑D数据的手部动作识别方法,包含以下步骤:佩戴RGB‑D传感器采集多个的视频片段;将RGB‑D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;采用注意力机制的方法提取深度图像序列的图像序列结构信息;针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。本发明可以充分结合RGB视频和深度视频的信息,具有更好的鲁棒性和更高的识别准确率。
Description
技术领域
本发明涉及计算机视觉的行为识别技术领域,尤其涉及一种基于第一视角RGB-D数据的手部动作识别方法。
背景技术
传统的第三视角视频往往对远距离目标成像的分辨率不高,易受遮挡、光照等因素干扰,难以支持后续的识别、跟踪等视觉任务。基于第一视角能够获取高分辨RGBD视频图像,可以自主移动以寻求遮挡少的最优视角,并保持视线集中在手部周围,这些特性从数据上为实现高精度的动作识别奠定了基础。现在的手部动作识别方法更倾向于将手的运动特征和操作的对象统一进行识别。Minghuang Ma等人通过深度卷积神经网络(CNN)的使用,提出了一个基于第一视角的双流网络框架,其中一个子网络分析手部和操作对象的外观信息,另一个子网络分析操作人头部和手部的运动信息,可以同时获取对象属性和手部运动特征。Suriya Singh等人提出了一个基于第一视角动作识别的三流网络框架,第一个网络是提取操作者手部和头部的运动信息,第二个网络和第三个网络分别是提取图像中的空间信息和时间信息。Guillermo Garcia-Hernando等人研究了基于第一视角的手部动作识别,在实验中收集了超过100000帧RGB-D视频序列,其中包括45个日常动作类别,涉及26个不同的物体。RGB-D动作识别和3D姿态估计都是相对较新的领域,这是首次尝试将它们与完整的人体相关联。现有的动作识别方法大多是基于第三视角的,第一视角的识别方法相对较少。并且现有的基于第一视角的方法都是处理RGB数据或者骨架数据,但是真实场景中高精度的骨架数据获取比较困难,精度不够高的骨架数据会严重影响后续的识别结果。当前方法中将RGB数据和深度数据结合的方法很少,其他方法的识别准确率和鲁棒性都有待提高。
发明内容
本发明解决了真实场景中高精度的骨架数据获取困难严重影响后续的识别结果的问题,提出一种基于第一视角RGB-D数据的手部动作识别方法,针对RGB-D数据可以充分结合RGB视频和深度视频的信息,基于第一视角克服了传统第三视角视频中分辨率低和遮挡的问题,此方法具有更好的鲁棒性和更高的识别准确率。
为实现上述目的,提出以下技术方案:
一种基于第一视角RGB-D数据的手部动作识别方法,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。
作为优选,所述步骤3具体包括:
利用CNN网络预训练对物体识别编码中的先验信息,得到不同区域的权重;引用了CAM类激活映射,在特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),为单元l中类别c对应的权重,CAM可以表示为基于Resnet-34作为主干网络,对于每一帧RGB图像帧进行CAM计算,并在空间维度上进行softmax操作,将CAM转换成概率图后,将得到的attention map注意力热图和最后一层卷积层输出图融合,得到加权后的特征图,最后将每一帧的特征图输入到LSTM网络,并对时序信息进行提取。
本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
作为优选,所述步骤4具体包括:
使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式
令在的假设下,使用最小二乘法,求解光流;在视频的整张图片帧上提取相邻帧的光流,再去除不相关的噪声动作;得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
作为优选,所述步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
作为优选,所述步骤6具体包括:
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
0≤α1,α2,...,αK,β≤1
其中超参数α和β对应中间特征的权重。
作为优选,所述共有特征和特有特征的权重比为4:1。
作为优选,所述特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
本发明的有益效果是:
1、基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。
2、本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。
3、本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
4、本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。
附图说明
图1是本发明的总流程图。
图2是针对RGB数据的特征提取网络示意图。
图3是针对深度数据的特征提取网络示意图。
图4是多模态学习网络示意图。
具体实施方式
实施例:
本实施例提出一种基于第一视角RGB-D数据的手部动作识别方法,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤3具体包括:
利用CNN网络预训练对物体识别编码中的先验信息,得到不同区域的权重;引用了CAM类激活映射,在特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),为单元l中类别c对应的权重,CAM可以表示为基于Resnet-34作为主干网络,对于每一帧RGB图像帧进行CAM计算,并在空间维度上进行softmax操作,将CAM转换成概率图后,将得到的attention map注意力热图和最后一层卷积层输出图融合,得到加权后的特征图,最后将每一帧的特征图输入到LSTM网络,并对时序信息进行提取。
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤4具体包括:
使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式
令在的假设下,使用最小二乘法,求解光流;在视频的整张图片帧上提取相邻帧的光流,再去除不相关的噪声动作;得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
步骤6具体包括:
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
0≤α1,α2,...,αK,β≤1
其中超参数α和β对应中间特征的权重。共有特征和特有特征的权重比为4:1。特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
下面结合附图和具体实施例,对本发明的具体实施方式做进一步详细说明,以下实施例用于说明本发明,但不用来限制发明的范围。
本发明的思路是对采集的RGB-D数据预处理,然后提取RGB图像的空间信息,光流图像的时序信息,深度图像的结构信息,并结合这些提取的特征信息学习不同模态的共同特征和独自特征,最后将特征信息融合,预测视频中动作的类别。参考图1,具体包括以下几个步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,将RGB数据和对应的深度数据进行配准。
本发明采集系统方案采用CPU+ToF深度传感器+RGB图像采集设备的硬件架构。在此架构中,CPU负责系统的初始化并对ToF传感器和RGB图像采集设备进行管理配置,并且实现对深度相位数据进行进一步处理计算得到深度图像,以及深度图像和RGB图像的配准工作。ToF深度传感器负责获取场景深度相位数据。RGB图像采集设备负责采集场景RGB可见光图像。
步骤2,将采样得到RGB-D数据进行预处理,并进行数据增强,手动标记相应的标签,形成数据集。
因为采集系统佩戴在头部的缘故,所以随着人的运动,头的摆动,以及视线的转移,都会使得采集到的视频抖动比较严重,为了高精度的识别,对采集得到的原视频进行视频稳像处理,并对转换后的图像进行去噪处理,可以为后续高精度的识别提供基础。
在电力工业行业的场景中,相关的视频数据比较少,训练出有效的模型需要大量的数据集,所以还需要对得到的RGB数据和深度数据进行数据增强。对已有的数据进行处理,比如翻转、平移或旋转,创造出更多的数据,网络训练出来的模型泛化能力更强。
并且对每一段视频制作标签,记录动作的类别,动作序列的开始帧数和结束帧数。
步骤3,将不同动作的进行尺寸统一处理后,针对RGB图像序列提取空间信息,如图2所示,采用基于注意力机制的方法,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的权重。在此本发明使用了CAM(类激活映射),在进行特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),为单元l中类别c对应的权重,CAM可以用式(1)表示
本发明中提取图像区域中得分最高的类别,CAM产生的图像就代表了图像的显著性图,可以使网络针对于被操作的物体附近的区域进行训练,本发明基于Resnet-34作为主干网络,对于每一帧RGB图像进行CAM计算,然后在空间维度上进行softmax操作,如式(2)表示。将CAM转换成概率图,然后将得到的attention map(注意力热图)和最后一层卷积层输出图融合,得到特征图。然后将每一帧的特征图输入到LSTM网络,对时序信息进行提取。
其中,f(i)是特征提取网络最后一个卷积层在i位置上的输出,Mc(i)是类别c在位置i的CAM,fSA(i)为经过空间注意力机制加权后的图像特征。
获取了图像特征之后,下一步就是对每一帧的特征进行时序编码,本发明使用LSTM网络来执行该操作,该网络在其他方法中已经被广泛应用,本发明中用到的convLSTM的工作原理和传统的LSTM类似。用convLSTM网络进行时序编码,可以同时观测到空间和时序两个维度上的变化,convLSTM模块的工作如下公式表示。
ht=ot⊙tanh(ct)(8)
其中,σ是sigmoid函数,it,ft,ot,ct和ht代表convLSTM网络输入状态,遗忘状态,输出状态,记忆状态,隐藏状态。W,b表示训练时的权重和偏置。在convLSTM网络中的记忆状态ct用来保存整个视频的特征,然后进行空间平均池化操作得到整段视频的特征描述符。用来表示整段RGB视频的特征信息。
步骤4,使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式(9)表示。
另在的假设下,使用最小二乘法,求解光流。在视频的整张图片帧上提取相邻帧的光流,然后去除不相关的噪声动作。为了去除传感器的震动带来的噪声,本发明通过设置连续帧之间的光流点的位移值将其过滤。得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
步骤5,针对深度图像序列提取结构信息。采用注意力机制的方法,相比于处理RGB数据不同的是,将注意力机制内置在LSTM网络中,并且修改了输出门,这使连续深度帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对序列中的潜在记忆状态进行平滑和跟踪。
如图3所示,对LSTM网络结构进行修改,在输入部分,对特征Xt进行池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st。根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合就可以得到提取后的特征图。结合前一帧的ct-1,ot-1可以得到此帧的ct,ot。通过池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出。过程如下:
(ia,fa,st,a)=(σ,σ,σ,η)(Wa*[υa,st-1⊙η(at-1)]) (11)
at=fa⊙at-1+ia⊙a (12)
s=softmax(υa+st⊙η(at)) (13)
(ic,fc,c)=(σ,σ,η)(Wc*[s⊙Xt,ot-1⊙η(ct-1)]) (14)
ct=fc⊙ct-1+ic⊙c (15)
ot=σ(Wo*[υc⊙ct,ot-1⊙η(ct-1)]) (17)
其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。σ和η均为激活函数。
步骤6,将从多模态数据源中提取到的特征进行融合,分别提取他们的共有信息和特有信息进行训练,最后可以对图像中的动作进行识别。
如图4所示,本实施例将从步骤3,4,5中每个网络中提取的特征表示为其中Xi表示第i个模态中的特征,K是模态总数,这里取3。本发明将融合函数定义为:X→h(X),它将输入特征X合并为输出特征h(X)。为了充分挖掘不同模态的共有特征和独有特征,本发明引入了两类中间特征和g(X),其中g(X)包含不同模态的共有特征如下式(18)表示。
对于特征X和特征函数gi(Xi)之间的关系,如下式(19)表示。
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵。
考虑到第一视角视频中,光照的变化和头部运动引起的摄像机运动会造成少部分数据的异常,直接采用L1范数和L2范数鲁棒性不够高,在共同特征的学习方面,对不同数据源采用Cauchy estimator计算数据之间的相关性,相对于L1,L2范数更加平滑,如(20)表示
在特有特征的学习方面,采用正交性约束(orthogonality constraints),如(22)表示,来计算不同数据的特有信息,不仅使每个数据的特有信息之间相互独立,特有信息和共有信息之间也相互独立。将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数。
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式(23)和(24)所示。
其中超参数α和β对应中间特征的权重。
在本发明中,根据实验结果,在网络融合权重选择中,共有信息部分和特有信息部分采用4:1的比例,在特有信息融合部分中RGB数据流,光流数据,深度数据流比例为2:2:1。
最后将共有特征和独有特征加权求和,然后输入一个softmax函数来预测动作标签,得到识别的结果。
本发明的有益效果是:
1、基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。
2、本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。
3、本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
4、本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。
Claims (7)
1.一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
2.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤3具体包括:
4.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
5.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤6具体包括:
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
0≤α1,α2,...,αK,β≤1
其中超参数α和β对应中间特征的权重。
6.根据权利要求5所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述共有特征和特有特征的权重比为4:1。
7.根据权利要求6所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011018265.6A CN112307892A (zh) | 2020-09-24 | 2020-09-24 | 一种基于第一视角rgb-d数据的手部动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011018265.6A CN112307892A (zh) | 2020-09-24 | 2020-09-24 | 一种基于第一视角rgb-d数据的手部动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112307892A true CN112307892A (zh) | 2021-02-02 |
Family
ID=74489178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011018265.6A Pending CN112307892A (zh) | 2020-09-24 | 2020-09-24 | 一种基于第一视角rgb-d数据的手部动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307892A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065451A (zh) * | 2021-03-29 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种多模态融合的动作识别装置、方法和存储介质 |
CN113111842A (zh) * | 2021-04-26 | 2021-07-13 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN114896307A (zh) * | 2022-06-30 | 2022-08-12 | 北京航空航天大学杭州创新研究院 | 时间序列数据增强方法、装置和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017206147A1 (en) * | 2016-06-02 | 2017-12-07 | Intel Corporation | Recognition of activity in a video image sequence using depth information |
CN109389621A (zh) * | 2018-09-11 | 2019-02-26 | 淮阴工学院 | 基于多模式深度特征融合的rgb-d目标跟踪方法 |
-
2020
- 2020-09-24 CN CN202011018265.6A patent/CN112307892A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017206147A1 (en) * | 2016-06-02 | 2017-12-07 | Intel Corporation | Recognition of activity in a video image sequence using depth information |
CN109389621A (zh) * | 2018-09-11 | 2019-02-26 | 淮阴工学院 | 基于多模式深度特征融合的rgb-d目标跟踪方法 |
Non-Patent Citations (4)
Title |
---|
SWATHIKIRAN SUDHAKARAN等: "Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition", 《ARXIV.ORG》, 31 July 2018 (2018-07-31), pages 4 * |
SWATHIKIRAN SUDHAKARAN等: "LSTA: Long Short-Term Attention for Egocentric Action Recognition", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 9 January 2020 (2020-01-09), pages 9956 - 9958 * |
YANSONG TANG等: "Multi-Stream Deep Neural Networks for RGB-D Egocentric Action Recognition", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 29, no. 10, 11 October 2018 (2018-10-11), pages 2 - 3 * |
赵小川: "《MATLAB图像处理 程序实现与模块化仿真 第2版》", 30 November 2018, 北京:北京航空航天大学出版社, pages: 206 - 208 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065451A (zh) * | 2021-03-29 | 2021-07-02 | 四川翼飞视科技有限公司 | 一种多模态融合的动作识别装置、方法和存储介质 |
CN113065451B (zh) * | 2021-03-29 | 2022-08-09 | 四川翼飞视科技有限公司 | 一种多模态融合的动作识别装置、方法和存储介质 |
CN113111842A (zh) * | 2021-04-26 | 2021-07-13 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN113111842B (zh) * | 2021-04-26 | 2023-06-27 | 浙江商汤科技开发有限公司 | 一种动作识别方法、装置、设备及计算机可读存储介质 |
CN114896307A (zh) * | 2022-06-30 | 2022-08-12 | 北京航空航天大学杭州创新研究院 | 时间序列数据增强方法、装置和电子设备 |
CN114896307B (zh) * | 2022-06-30 | 2022-09-27 | 北京航空航天大学杭州创新研究院 | 时间序列数据增强方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311666B (zh) | 一种融合边缘特征和深度学习的单目视觉里程计方法 | |
CN114187665B (zh) | 一种基于人体骨架热图的多人步态识别方法 | |
Xu et al. | Aligning correlation information for domain adaptation in action recognition | |
CN111931602B (zh) | 基于注意力机制的多流分段网络人体动作识别方法及系统 | |
CN112651262B (zh) | 一种基于自适应行人对齐的跨模态行人重识别方法 | |
CN112307892A (zh) | 一种基于第一视角rgb-d数据的手部动作识别方法 | |
Avola et al. | 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition | |
CN113608663B (zh) | 一种基于深度学习和k-曲率法的指尖跟踪方法 | |
CN117671738B (zh) | 基于人工智能的人体姿态识别系统 | |
Rong et al. | Picking point recognition for ripe tomatoes using semantic segmentation and morphological processing | |
CN111582232A (zh) | 一种基于像素级语义信息的slam方法 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
Munsif et al. | Attention-based deep learning framework for action recognition in a dark environment | |
CN112989889A (zh) | 一种基于姿态指导的步态识别方法 | |
CN111680560A (zh) | 一种基于时空特征的行人再识别方法 | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN114724185A (zh) | 一种轻量型的多人姿态跟踪方法 | |
CN111582036A (zh) | 可穿戴设备下基于形状和姿态的跨视角人物识别方法 | |
Šarić et al. | Dense semantic forecasting in video by joint regression of features and feature motion | |
Benhamida et al. | Human Action Recognition and Coding based on Skeleton Data for Visually Impaired and Blind People Aid System | |
CN115019386A (zh) | 基于深度学习的运动辅助训练方法 | |
CN114066932A (zh) | 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法 | |
CN117576786B (zh) | 基于视觉语言模型的三维人体行为识别网络训练方法 | |
Shi et al. | Multilevel cross-aware RGBD indoor semantic segmentation for bionic binocular robot | |
Xiong et al. | Extraction of hand gestures with adaptive skin color models and its applications to meeting analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |
|
RJ01 | Rejection of invention patent application after publication |