[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112307892A - 一种基于第一视角rgb-d数据的手部动作识别方法 - Google Patents

一种基于第一视角rgb-d数据的手部动作识别方法 Download PDF

Info

Publication number
CN112307892A
CN112307892A CN202011018265.6A CN202011018265A CN112307892A CN 112307892 A CN112307892 A CN 112307892A CN 202011018265 A CN202011018265 A CN 202011018265A CN 112307892 A CN112307892 A CN 112307892A
Authority
CN
China
Prior art keywords
information
rgb
data
network
optical flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011018265.6A
Other languages
English (en)
Inventor
杨谦
许屹
郑星
华晓
严伟雄
张晓�
汪勇
周伟红
许潜航
杨永峰
黄炎阶
段凌霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical Quzhou Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority to CN202011018265.6A priority Critical patent/CN112307892A/zh
Publication of CN112307892A publication Critical patent/CN112307892A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/38Registration of image sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于第一视角RGB‑D数据的手部动作识别方法,包含以下步骤:佩戴RGB‑D传感器采集多个的视频片段;将RGB‑D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;采用注意力机制的方法提取深度图像序列的图像序列结构信息;针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。本发明可以充分结合RGB视频和深度视频的信息,具有更好的鲁棒性和更高的识别准确率。

Description

一种基于第一视角RGB-D数据的手部动作识别方法
技术领域
本发明涉及计算机视觉的行为识别技术领域,尤其涉及一种基于第一视角RGB-D数据的手部动作识别方法。
背景技术
传统的第三视角视频往往对远距离目标成像的分辨率不高,易受遮挡、光照等因素干扰,难以支持后续的识别、跟踪等视觉任务。基于第一视角能够获取高分辨RGBD视频图像,可以自主移动以寻求遮挡少的最优视角,并保持视线集中在手部周围,这些特性从数据上为实现高精度的动作识别奠定了基础。现在的手部动作识别方法更倾向于将手的运动特征和操作的对象统一进行识别。Minghuang Ma等人通过深度卷积神经网络(CNN)的使用,提出了一个基于第一视角的双流网络框架,其中一个子网络分析手部和操作对象的外观信息,另一个子网络分析操作人头部和手部的运动信息,可以同时获取对象属性和手部运动特征。Suriya Singh等人提出了一个基于第一视角动作识别的三流网络框架,第一个网络是提取操作者手部和头部的运动信息,第二个网络和第三个网络分别是提取图像中的空间信息和时间信息。Guillermo Garcia-Hernando等人研究了基于第一视角的手部动作识别,在实验中收集了超过100000帧RGB-D视频序列,其中包括45个日常动作类别,涉及26个不同的物体。RGB-D动作识别和3D姿态估计都是相对较新的领域,这是首次尝试将它们与完整的人体相关联。现有的动作识别方法大多是基于第三视角的,第一视角的识别方法相对较少。并且现有的基于第一视角的方法都是处理RGB数据或者骨架数据,但是真实场景中高精度的骨架数据获取比较困难,精度不够高的骨架数据会严重影响后续的识别结果。当前方法中将RGB数据和深度数据结合的方法很少,其他方法的识别准确率和鲁棒性都有待提高。
发明内容
本发明解决了真实场景中高精度的骨架数据获取困难严重影响后续的识别结果的问题,提出一种基于第一视角RGB-D数据的手部动作识别方法,针对RGB-D数据可以充分结合RGB视频和深度视频的信息,基于第一视角克服了传统第三视角视频中分辨率低和遮挡的问题,此方法具有更好的鲁棒性和更高的识别准确率。
为实现上述目的,提出以下技术方案:
一种基于第一视角RGB-D数据的手部动作识别方法,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。
作为优选,所述步骤3具体包括:
利用CNN网络预训练对物体识别编码中的先验信息,得到不同区域的权重;引用了CAM类激活映射,在特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),
Figure BDA0002699823830000021
为单元l中类别c对应的权重,CAM可以表示为
Figure BDA0002699823830000022
基于Resnet-34作为主干网络,对于每一帧RGB图像帧进行CAM计算,并在空间维度上进行softmax操作,将CAM转换成概率图后,将得到的attention map注意力热图和最后一层卷积层输出图融合,得到加权后的特征图,最后将每一帧的特征图输入到LSTM网络,并对时序信息进行提取。
本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
作为优选,所述步骤4具体包括:
使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式
Figure BDA0002699823830000023
Figure BDA00026998238300000211
Figure BDA0002699823830000024
的假设下,使用最小二乘法,求解光流;在视频的整张图片帧上提取相邻帧的光流,再去除不相关的噪声动作;得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
作为优选,所述步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行
Figure BDA0002699823830000029
池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过
Figure BDA00026998238300000210
池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
作为优选,所述步骤6具体包括:
每个网络中提取的特征表示为
Figure BDA0002699823830000025
其中Xi表示第i个模态中的特征,K是模态总数;将融合函数定义为:X→h(X);引入了两类中间特征
Figure BDA0002699823830000026
和g(X),其中g(X)包含不同模态的共有特征如下式表示:
Figure BDA0002699823830000027
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
Figure BDA0002699823830000028
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
Figure BDA0002699823830000031
Figure BDA0002699823830000032
表示不同模态的独有特征,和gi(Xi)相似,如下式表示:
Figure BDA0002699823830000033
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
Figure BDA0002699823830000034
Figure BDA0002699823830000035
0≤α12,...,αK,β≤1
其中超参数α和β对应中间特征的权重。
作为优选,所述共有特征和特有特征的权重比为4:1。
作为优选,所述特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
本发明的有益效果是:
1、基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。
2、本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。
3、本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
4、本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。
附图说明
图1是本发明的总流程图。
图2是针对RGB数据的特征提取网络示意图。
图3是针对深度数据的特征提取网络示意图。
图4是多模态学习网络示意图。
具体实施方式
实施例:
本实施例提出一种基于第一视角RGB-D数据的手部动作识别方法,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤3具体包括:
利用CNN网络预训练对物体识别编码中的先验信息,得到不同区域的权重;引用了CAM类激活映射,在特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),
Figure BDA0002699823830000041
为单元l中类别c对应的权重,CAM可以表示为
Figure BDA0002699823830000042
基于Resnet-34作为主干网络,对于每一帧RGB图像帧进行CAM计算,并在空间维度上进行softmax操作,将CAM转换成概率图后,将得到的attention map注意力热图和最后一层卷积层输出图融合,得到加权后的特征图,最后将每一帧的特征图输入到LSTM网络,并对时序信息进行提取。
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤4具体包括:
使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式
Figure BDA0002699823830000043
Figure BDA0002699823830000044
Figure BDA0002699823830000045
的假设下,使用最小二乘法,求解光流;在视频的整张图片帧上提取相邻帧的光流,再去除不相关的噪声动作;得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行
Figure BDA00026998238300000411
池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过
Figure BDA00026998238300000412
池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
步骤6具体包括:
每个网络中提取的特征表示为
Figure BDA0002699823830000046
其中Xi表示第i个模态中的特征,K是模态总数;将融合函数定义为:X→h(X);引入了两类中间特征
Figure BDA0002699823830000047
和g(X),其中g(X)包含不同模态的共有特征如下式表示:
Figure BDA0002699823830000048
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
Figure BDA0002699823830000049
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
Figure BDA00026998238300000410
Figure BDA0002699823830000051
表示不同模态的独有特征,和gi(Xi)相似,如下式表示:
Figure BDA0002699823830000052
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
Figure BDA0002699823830000053
Figure BDA0002699823830000054
0≤α12,...,αK,β≤1
其中超参数α和β对应中间特征的权重。共有特征和特有特征的权重比为4:1。特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
下面结合附图和具体实施例,对本发明的具体实施方式做进一步详细说明,以下实施例用于说明本发明,但不用来限制发明的范围。
本发明的思路是对采集的RGB-D数据预处理,然后提取RGB图像的空间信息,光流图像的时序信息,深度图像的结构信息,并结合这些提取的特征信息学习不同模态的共同特征和独自特征,最后将特征信息融合,预测视频中动作的类别。参考图1,具体包括以下几个步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,将RGB数据和对应的深度数据进行配准。
本发明采集系统方案采用CPU+ToF深度传感器+RGB图像采集设备的硬件架构。在此架构中,CPU负责系统的初始化并对ToF传感器和RGB图像采集设备进行管理配置,并且实现对深度相位数据进行进一步处理计算得到深度图像,以及深度图像和RGB图像的配准工作。ToF深度传感器负责获取场景深度相位数据。RGB图像采集设备负责采集场景RGB可见光图像。
步骤2,将采样得到RGB-D数据进行预处理,并进行数据增强,手动标记相应的标签,形成数据集。
因为采集系统佩戴在头部的缘故,所以随着人的运动,头的摆动,以及视线的转移,都会使得采集到的视频抖动比较严重,为了高精度的识别,对采集得到的原视频进行视频稳像处理,并对转换后的图像进行去噪处理,可以为后续高精度的识别提供基础。
在电力工业行业的场景中,相关的视频数据比较少,训练出有效的模型需要大量的数据集,所以还需要对得到的RGB数据和深度数据进行数据增强。对已有的数据进行处理,比如翻转、平移或旋转,创造出更多的数据,网络训练出来的模型泛化能力更强。
并且对每一段视频制作标签,记录动作的类别,动作序列的开始帧数和结束帧数。
步骤3,将不同动作的进行尺寸统一处理后,针对RGB图像序列提取空间信息,如图2所示,采用基于注意力机制的方法,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的权重。在此本发明使用了CAM(类激活映射),在进行特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),
Figure BDA0002699823830000055
为单元l中类别c对应的权重,CAM可以用式(1)表示
Figure BDA0002699823830000056
本发明中提取图像区域中得分最高的类别,CAM产生的图像就代表了图像的显著性图,可以使网络针对于被操作的物体附近的区域进行训练,本发明基于Resnet-34作为主干网络,对于每一帧RGB图像进行CAM计算,然后在空间维度上进行softmax操作,如式(2)表示。将CAM转换成概率图,然后将得到的attention map(注意力热图)和最后一层卷积层输出图融合,得到特征图。然后将每一帧的特征图输入到LSTM网络,对时序信息进行提取。
Figure BDA0002699823830000057
其中,f(i)是特征提取网络最后一个卷积层在i位置上的输出,Mc(i)是类别c在位置i的CAM,fSA(i)为经过空间注意力机制加权后的图像特征。
获取了图像特征之后,下一步就是对每一帧的特征进行时序编码,本发明使用LSTM网络来执行该操作,该网络在其他方法中已经被广泛应用,本发明中用到的convLSTM的工作原理和传统的LSTM类似。用convLSTM网络进行时序编码,可以同时观测到空间和时序两个维度上的变化,convLSTM模块的工作如下公式表示。
Figure BDA0002699823830000061
Figure BDA0002699823830000062
Figure BDA0002699823830000063
Figure BDA0002699823830000064
Figure BDA0002699823830000065
ht=ot⊙tanh(ct)(8)
其中,σ是sigmoid函数,it,ft,ot,ct和ht代表convLSTM网络输入状态,遗忘状态,输出状态,记忆状态,隐藏状态。W,b表示训练时的权重和偏置。在convLSTM网络中的记忆状态ct用来保存整个视频的特征,然后进行空间平均池化操作得到整段视频的特征描述符。用来表示整段RGB视频的特征信息。
步骤4,使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式(9)表示。
Figure BDA0002699823830000066
Figure BDA0002699823830000067
Figure BDA0002699823830000068
的假设下,使用最小二乘法,求解光流。在视频的整张图片帧上提取相邻帧的光流,然后去除不相关的噪声动作。为了去除传感器的震动带来的噪声,本发明通过设置连续帧之间的光流点的位移值将其过滤。得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
步骤5,针对深度图像序列提取结构信息。采用注意力机制的方法,相比于处理RGB数据不同的是,将注意力机制内置在LSTM网络中,并且修改了输出门,这使连续深度帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对序列中的潜在记忆状态进行平滑和跟踪。
如图3所示,对LSTM网络结构进行修改,在输入部分,对特征Xt进行
Figure BDA00026998238300000610
池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st。根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合就可以得到提取后的特征图。结合前一帧的ct-1,ot-1可以得到此帧的ct,ot。通过
Figure BDA00026998238300000611
池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出。过程如下:
Figure BDA0002699823830000069
(ia,fa,st,a)=(σ,σ,σ,η)(Wa*[υa,st-1⊙η(at-1)]) (11)
at=fa⊙at-1+ia⊙a (12)
s=softmax(υa+st⊙η(at)) (13)
(ic,fc,c)=(σ,σ,η)(Wc*[s⊙Xt,ot-1⊙η(ct-1)]) (14)
ct=fc⊙ct-1+ic⊙c (15)
Figure BDA0002699823830000071
ot=σ(Wo*[υc⊙ct,ot-1⊙η(ct-1)]) (17)
其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。σ和η均为激活函数。
步骤6,将从多模态数据源中提取到的特征进行融合,分别提取他们的共有信息和特有信息进行训练,最后可以对图像中的动作进行识别。
如图4所示,本实施例将从步骤3,4,5中每个网络中提取的特征表示为
Figure BDA0002699823830000072
其中Xi表示第i个模态中的特征,K是模态总数,这里取3。本发明将融合函数定义为:X→h(X),它将输入特征X合并为输出特征h(X)。为了充分挖掘不同模态的共有特征和独有特征,本发明引入了两类中间特征
Figure BDA0002699823830000073
和g(X),其中g(X)包含不同模态的共有特征如下式(18)表示。
Figure BDA0002699823830000074
对于特征X和特征函数gi(Xi)之间的关系,如下式(19)表示。
Figure BDA0002699823830000075
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵。
考虑到第一视角视频中,光照的变化和头部运动引起的摄像机运动会造成少部分数据的异常,直接采用L1范数和L2范数鲁棒性不够高,在共同特征的学习方面,对不同数据源采用Cauchy estimator计算数据之间的相关性,相对于L1,L2范数更加平滑,如(20)表示
Figure BDA0002699823830000076
Figure BDA0002699823830000077
表示不同模态的独有特征,和gi(Xi)相似;如下式(21)表示。
Figure BDA0002699823830000078
在特有特征的学习方面,采用正交性约束(orthogonality constraints),如(22)表示,来计算不同数据的特有信息,不仅使每个数据的特有信息之间相互独立,特有信息和共有信息之间也相互独立。将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数。
Figure BDA00026998238300000711
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式(23)和(24)所示。
Figure BDA0002699823830000079
Figure BDA00026998238300000710
其中超参数α和β对应中间特征的权重。
在本发明中,根据实验结果,在网络融合权重选择中,共有信息部分和特有信息部分采用4:1的比例,在特有信息融合部分中RGB数据流,光流数据,深度数据流比例为2:2:1。
最后将共有特征和独有特征加权求和,然后输入一个softmax函数来预测动作标签,得到识别的结果。
本发明的有益效果是:
1、基于可见光的手部动作识别容易受到光照和背景变化影响,本发明充分利用RGB-D摄像机所提供的深度信息,其中深度信息主要用于从背景中分割前景并且不受光照影响。通过将RGB数据的空间特征加上深度信息的结构特征,提高在复杂条件下动作识别的准确度。
2、本发明在针对于RGB图像序列处理时,采用了注意力机制,利用CNN预训练对物体识别编码中的先验信息,得到不同区域的概率图,与对特征提取网络的输出进行加权融合。可以在训练的过程中对手部操作的物体区域附近进行重点学习。
3、本发明在针对于深度图像处理时,将注意力机制内置在LSTM中,并且修改了输出门,这对连续帧中attention map的提取效果更平滑,在改进递归单元的输出门之后,不仅影响整体预测,而且控制了递归,有助于对深度图像序列中的潜在记忆状态进行平滑和跟踪,对于基于深度数据提取结构信息的效果提升显著。
4、本发明实现了多模态特征的融合,相比于只利用空间信息或者时序信息的特征,结合RGB空间信息,光流图像的时序信息,深度图像的结构信息,可以做到信息互补,实现精度高,鲁棒性强的识别效果。

Claims (7)

1.一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,包含以下步骤:
步骤1,佩戴RGB-D传感器采集多个的视频片段,包括RGB视频片段和深度视频片段,将RGB视频片段和深度视频片段进行图像转换,得到单帧的RGB图像序列和单帧的深度图像序列,并将RGB图像序列和深度图像序列进行配准;
步骤2,将RGB-D传感器采集到数据进行预处理,并进行数据增强,制作对应的标签,形成数据集;
步骤3,将不同动作进行尺寸统一处理后,针对RGB图像序列提取空间信息;采用基于注意力机制的方法对图像序列进行特征提取,并通过LSTM网络提取RGB图像的时序信息;
步骤4,计算RGB图像序列中两个相邻帧之间的光流,得到对应的光流图像序列,基于Resnet网络提取光流图像的时序信息;
步骤5,采用注意力机制的方法提取深度图像序列的图像序列结构信息;
步骤6,针对三种数据提取到的特征,采用多模态学习网络,分别提取他们的共有信息和特有信息进行训练,最后融合共有信息和特有信息,对动作进行识别。
2.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤3具体包括:
利用CNN网络预训练对物体识别编码中的先验信息,得到不同区域的权重;引用了CAM类激活映射,在特征提取的CNN网络的最后一个卷积层中,将一个单元l在空间位置i的激活值定义为fl(i),
Figure FDA0002699823820000011
为单元l中类别c对应的权重,CAM可以表示为
Figure FDA0002699823820000012
基于Resnet-34作为主干网络,对于每一帧RGB图像帧进行CAM计算,并在空间维度上进行softmax操作,将CAM转换成概率图后,将得到的attention map注意力热图和最后一层卷积层输出图融合,得到加权后的特征图,最后将每一帧的特征图输入到LSTM网络,并对时序信息进行提取。
3.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤4具体包括:
使用TVL1算法计算RGB视频的两个相邻帧之间的光流,光流找到图像中每个像素点的速度向量,根据光流的微小运动和亮度恒定的假设,得到I(x,y,t)=I(x+dx,y+dy,t+dt),用一介泰勒展开,如下式
Figure FDA0002699823820000013
Figure FDA0002699823820000014
Figure FDA0002699823820000015
的假设下,使用最小二乘法,求解光流;在视频的整张图片帧上提取相邻帧的光流,再去除不相关的噪声动作;得到光流图像后,针对光流图像序列提取时序信息,以光流栈的形式将每5张光流图叠加到一起,输入到Resnet网络,进行图像序列的时序信息提取。
4.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤5具体包括:对LSTM网络结构进行修改,在输入部分,对特征Xt进行
Figure FDA0002699823820000016
池化操作,得到一个对应的值υa,将其输送到RNN网络,结合前一帧的at-1,st-1可以得到at,st;根据at,st结合υa经过softmax函数可以得到此帧的attention map注意力热图s,将s和Xt融合得到提取后的特征图;结合前一帧的ct-1,ot-1可以得到此帧的ct,ot;通过
Figure FDA0002699823820000017
池化操作耦合输入门和输出门部分,最后将υc⊙ct作为网络的输出;其中Xt是输入特征,at是RNN网络中的记忆状态,st是RNN网络中的输出状态,ct是LSTM网络中的记忆状态,ot是LSTM网络中的输出状态,υa和υc是互相耦合的池化操作。
5.根据权利要求1所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述步骤6具体包括:
每个网络中提取的特征表示为
Figure FDA0002699823820000021
其中Xi表示第i个模态中的特征,K是模态总数;将融合函数定义为:X→h(X);引入了两类中间特征
Figure FDA0002699823820000022
和g(X),其中g(X)包含不同模态的共有特征如下式表示:
Figure FDA0002699823820000023
对于特征X和特征函数gi(Xi)之间的关系,如下式表示:
Figure FDA0002699823820000024
其中F为非线性函数,Wi和bi分别代表权重矩阵和偏置矩阵;
对不同数据源采用Cauchy estimator计算数据之间的相关性,如下式表示
Figure FDA0002699823820000025
Figure FDA0002699823820000026
表示不同模态的独有特征,和gi(Xi)相似,如下式表示:
Figure FDA0002699823820000027
采用正交性约束,来计算不同数据的特有信息,将这两部分和原来的多分类交叉熵函数加权相加,构成整个网络的loss函数;
Φd(fi(Xi),fj(Xj))=|fi(Xi)⊙fj(Xj)|
Φd(fi(Xi),gi(Xi))=|fi(Xi)⊙gi(Xi)|
对这两个中间特征分配不同的权重,最后加权融合得到融合特征,融合函数如下式所示;
Figure FDA0002699823820000028
Figure FDA0002699823820000029
0≤α12,...,αK,β≤1
其中超参数α和β对应中间特征的权重。
6.根据权利要求5所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述共有特征和特有特征的权重比为4:1。
7.根据权利要求6所述的一种基于第一视角RGB-D数据的手部动作识别方法,其特征是,所述特有特征中,通过以RGB数据:光流数据:深度数据=4:4:2的权重进行加权融合,再通过加权融合后的信息来预测动作标签,得到识别的结果。
CN202011018265.6A 2020-09-24 2020-09-24 一种基于第一视角rgb-d数据的手部动作识别方法 Pending CN112307892A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011018265.6A CN112307892A (zh) 2020-09-24 2020-09-24 一种基于第一视角rgb-d数据的手部动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011018265.6A CN112307892A (zh) 2020-09-24 2020-09-24 一种基于第一视角rgb-d数据的手部动作识别方法

Publications (1)

Publication Number Publication Date
CN112307892A true CN112307892A (zh) 2021-02-02

Family

ID=74489178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011018265.6A Pending CN112307892A (zh) 2020-09-24 2020-09-24 一种基于第一视角rgb-d数据的手部动作识别方法

Country Status (1)

Country Link
CN (1) CN112307892A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065451A (zh) * 2021-03-29 2021-07-02 四川翼飞视科技有限公司 一种多模态融合的动作识别装置、方法和存储介质
CN113111842A (zh) * 2021-04-26 2021-07-13 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN114896307A (zh) * 2022-06-30 2022-08-12 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206147A1 (en) * 2016-06-02 2017-12-07 Intel Corporation Recognition of activity in a video image sequence using depth information
CN109389621A (zh) * 2018-09-11 2019-02-26 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017206147A1 (en) * 2016-06-02 2017-12-07 Intel Corporation Recognition of activity in a video image sequence using depth information
CN109389621A (zh) * 2018-09-11 2019-02-26 淮阴工学院 基于多模式深度特征融合的rgb-d目标跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SWATHIKIRAN SUDHAKARAN等: "Attention is All We Need: Nailing Down Object-centric Attention for Egocentric Activity Recognition", 《ARXIV.ORG》, 31 July 2018 (2018-07-31), pages 4 *
SWATHIKIRAN SUDHAKARAN等: "LSTA: Long Short-Term Attention for Egocentric Action Recognition", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》, 9 January 2020 (2020-01-09), pages 9956 - 9958 *
YANSONG TANG等: "Multi-Stream Deep Neural Networks for RGB-D Egocentric Action Recognition", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》, vol. 29, no. 10, 11 October 2018 (2018-10-11), pages 2 - 3 *
赵小川: "《MATLAB图像处理 程序实现与模块化仿真 第2版》", 30 November 2018, 北京:北京航空航天大学出版社, pages: 206 - 208 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065451A (zh) * 2021-03-29 2021-07-02 四川翼飞视科技有限公司 一种多模态融合的动作识别装置、方法和存储介质
CN113065451B (zh) * 2021-03-29 2022-08-09 四川翼飞视科技有限公司 一种多模态融合的动作识别装置、方法和存储介质
CN113111842A (zh) * 2021-04-26 2021-07-13 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN113111842B (zh) * 2021-04-26 2023-06-27 浙江商汤科技开发有限公司 一种动作识别方法、装置、设备及计算机可读存储介质
CN114896307A (zh) * 2022-06-30 2022-08-12 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备
CN114896307B (zh) * 2022-06-30 2022-09-27 北京航空航天大学杭州创新研究院 时间序列数据增强方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN111311666B (zh) 一种融合边缘特征和深度学习的单目视觉里程计方法
CN114187665B (zh) 一种基于人体骨架热图的多人步态识别方法
Xu et al. Aligning correlation information for domain adaptation in action recognition
CN111931602B (zh) 基于注意力机制的多流分段网络人体动作识别方法及系统
CN112651262B (zh) 一种基于自适应行人对齐的跨模态行人重识别方法
CN112307892A (zh) 一种基于第一视角rgb-d数据的手部动作识别方法
Avola et al. 3D hand pose and shape estimation from RGB images for keypoint-based hand gesture recognition
CN113608663B (zh) 一种基于深度学习和k-曲率法的指尖跟踪方法
CN117671738B (zh) 基于人工智能的人体姿态识别系统
Rong et al. Picking point recognition for ripe tomatoes using semantic segmentation and morphological processing
CN111582232A (zh) 一种基于像素级语义信息的slam方法
CN113743544A (zh) 一种跨模态神经网络构建方法、行人检索方法及系统
Munsif et al. Attention-based deep learning framework for action recognition in a dark environment
CN112989889A (zh) 一种基于姿态指导的步态识别方法
CN111680560A (zh) 一种基于时空特征的行人再识别方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN114724185A (zh) 一种轻量型的多人姿态跟踪方法
CN111582036A (zh) 可穿戴设备下基于形状和姿态的跨视角人物识别方法
Šarić et al. Dense semantic forecasting in video by joint regression of features and feature motion
Benhamida et al. Human Action Recognition and Coding based on Skeleton Data for Visually Impaired and Blind People Aid System
CN115019386A (zh) 基于深度学习的运动辅助训练方法
CN114066932A (zh) 一种实时的基于深度学习的多人人体三维姿态估计和跟踪方法
CN117576786B (zh) 基于视觉语言模型的三维人体行为识别网络训练方法
Shi et al. Multilevel cross-aware RGBD indoor semantic segmentation for bionic binocular robot
Xiong et al. Extraction of hand gestures with adaptive skin color models and its applications to meeting analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202

RJ01 Rejection of invention patent application after publication