CN113489958A - 一种基于视频编码数据多特征融合的动态手势识别方法及系统 - Google Patents
一种基于视频编码数据多特征融合的动态手势识别方法及系统 Download PDFInfo
- Publication number
- CN113489958A CN113489958A CN202110920085.5A CN202110920085A CN113489958A CN 113489958 A CN113489958 A CN 113489958A CN 202110920085 A CN202110920085 A CN 202110920085A CN 113489958 A CN113489958 A CN 113489958A
- Authority
- CN
- China
- Prior art keywords
- frame
- data
- video
- accumulated
- gop
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
- H04N23/84—Camera processing pipelines; Components thereof for processing colour signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/10—Processing, recording or transmission of stereoscopic or multi-view image signals
- H04N13/106—Processing image signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/177—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a group of pictures [GOP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/42—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by implementation details or hardware specially adapted for video compression or decompression, e.g. dedicated software implementation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/513—Processing of motion vectors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/593—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N2013/0074—Stereoscopic image analysis
- H04N2013/0077—Colour aspects
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明公开了一种基于视频编码数据多特征融合的动态手势识别方法及系统,以编码视频的GOP为基本单元进行数据的提取和融合,通过获取GOP中的I帧以及提取GOP中所有P帧的积累运动矢量和积累残差得到了很好的融合效果,特征数据从压缩数据中直接提取,数据提取过程不需要太多的计算开销,采用积累运动矢量关注图像序列中运动部分的空间位移信息,面向复杂光照背景环境有很好的鲁棒性;利用视频编码中的运动矢量数据和残差数据,在运动手势视频中拥有三维运动特征时,能达到很高的识别精确度,通过对单个GOP中所有P帧的运动矢量数据和残差数据进行积累获取了视频中更清晰的运动特征和轮廓信息,从而能够准确实现动态手势的识别,提高了手势识别效果。
Description
技术领域
本发明属于信息技术领域,具体涉及一种基于视频编码数据多特征融合的动态手势识别方法及系统。
背景技术
动态手势作为一种重要的人机交互方式,近年来受到越来越多的关注。将手部执行的特定动作,利用相应设备捕获与分析,转化为一系列控制指令使智能设备做出响应,使得人机交互方式更加自然和友好。近年来,动态手势识别在体感游戏、手语识别、辅助驾驶、医疗器械以及智能家电控制等领域应用的越来越广泛。
目前在计算机视觉领域,大多数现有的动作识别模型是大型卷积神经网络(CNNs),仅使用原始RGB帧作为输入。然而,实际应用需要直接处理压缩视频的轻量级模型。由于原始视频流的巨大尺寸和高时间冗余;真实而有效的信号常常淹没在太多不相关的数据中。
由于编码视频中的运动矢量表征的为二维运动特征,所以当手势拥有三维运动特征时,运动矢量难以表征出手势在平面维度以外的特征。光靠一个运动矢量和关键帧的提取识别难以达到很好的识别效果,从而需要更深入的去挖掘编码视频中的数据及其组织结构的信息。
对压缩视频解码后的每一帧信息进行分析,不仅增大了系统资源的开销,并且对视频数据中许多冗余信息进行了不必要的计算。传统方法通常将视频数据进行解码分帧,通过分析多帧图像数据的相关性来理解视频数据的时域信息。虽然RGB数据提供了较好的空间信息表示,但是在一般情况下使用RGB视频数据进行时域信息提取,很容易受到图像中的背景、光照等因素的影响。
为了面向更丰富的手型变化,传统方法在RGB视频的基础上,会增加多种数据形式,如深度数据和从RGB视频中计算的光流数据。虽然通过增加光流和深度数据能够提高识别效果,但是计算光流增加的系统资源消耗量较大,而深度数据也需要增加更多的输入设备,并且存在数据对齐的问题。
动态手势有更为复杂,语义更丰富的形态,例如包括三维运动特征的手势,以及更丰富的手型变化,仅从运动矢量和首帧已无法对此类动态手势进行特征表示,而视频编码中还有更为丰富的数据格式和组织形态,传统方法之所以增加光流和深度数据,目的即为了获取视频中更清晰的运动特征和轮廓信息,但视频编码中的运动矢量数据和残差数据中同样拥有此类信息。
发明内容
本发明的目的在于提供一种基于视频编码数据多特征融合的动态手势识别方法及系统,以克服现有技术的不足。
为达到上述目的,本发明采用如下技术方案:
一种基于视频编码数据多特征融合的动态手势识别方法,包括以下步骤:
S1,将已知动态手势的视频编码数据分解为若干个等长度的GOP;
S2,获取每个GOP中的I帧、积累残差和积累运动矢量,采用I帧训练得到I帧识别模型,采用积累残差训练得到积累残差识别模型,采用积累运动矢量训练得到运动矢量识别模型;
S3,将待识别动态手势视频根据步骤S1中GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作。
进一步的,每个GOP包括7帧数据。
进一步的,视频序列如公式1所示:
V={F1,F2,…,Fi,…,Fn} 式1
其中Fi为视频中一帧数据,下标i表示当前为第i帧,V为整个视频数据,F表示视频帧;
一个视频V中的GOP如公式2所示:
进一步的,第j帧Fj积累到GOP中的首帧I帧的积累运动矢量Φj如公式6所示,积累残差Δj如公式7所示;
Φj=p-τj→0 式6
Δj=R1(τj→1)+…+Rj-1(τj→j-1)+Rj(p) 式7
式中:p为当前帧Fj的像素,τj→0表示由第j帧Fj积累到首帧I帧的参考位置,Rj(p)表示第j帧像素p的残差,τj→j-1表示由第j帧Fj积累到前一帧的参考位置。
进一步的,使用首帧I帧的像素信息与积累运动矢量和积累残差计算出当前帧的像素信息。
进一步的,在融合过程中,首先将积累运动矢量映射到HSL颜色空间,通过运动矢量的x轴和y轴偏移量计算出运动矢量的运动方向和运动幅度大小,分别映射到HSL的H分量和S分量,L分量使用均值;残差的原始数据使用YUV色彩空间的Y分量,U和V分量使用均值,并转换为RGB格式,从YUV色彩空间到RGB色彩空间的转换由公式10到公式12实现。
进一步的,将待识别动态手势视频按GOP下采样到等长,如公式18所示;
进一步的,分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率为p1、p2、p3,根据公式16计算融合概率P:
P=p1×x1+p2×x2+p3×x3 式16。
x1,x2,x3是根据数据进行调整的参数。
进一步的,x1,x2,x3分别取值为0.5,0.25,0.25。
一种基于视频编码数据多特征融合的动态手势识别系统,包括数据预处理模块、预训练模块和识别模块;
数据预处理模块用于将已知动态手势的视频编码数据分解为若干个等长度的GOP,获取每个GOP中的I帧、积累残差和积累运动矢量,并根据采集的I帧、积累残差和积累运动矢量分别在预训练模块中预训练得到I帧识别模型、积累残差识别模型和运动矢量识别模型;
识别模块用于存储I帧识别模型、积累残差识别模型和运动矢量识别模型,并将输入的待识别动态手势视频根据GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作进行输出。
与现有技术相比,本发明具有以下有益的技术效果:
本发明一种基于视频编码数据多特征融合的动态手势识别方法,将压缩后的视频编码数据分解为若干个等长度的GOP,以编码视频的GOP为基本单元进行数据的提取和融合,通过获取GOP中的I帧以及提取GOP中所有P帧的积累运动矢量和积累残差,结合以上特征得到了很好的融合效果,本发明使用的特征数据从压缩数据中直接提取,数据提取过程不需要太多的计算开销,因而可以直接在压缩视频数据上训练网络,压缩数据去除了原始视频中许多冗余信息,保留了更多有意义的信息,有利于网络的训练;本申请采用积累运动矢量关注图像序列中运动部分的空间位移信息,面向复杂光照背景环境有很好的鲁棒性;本申请利用了视频编码中的运动矢量数据和残差数据,在运动手势视频中拥有三维运动特征时,能达到很高的识别精确度,通过对单个GOP中所有P帧的运动矢量数据和残差数据进行积累获取了视频中更清晰的运动特征和轮廓信息,从而能够准确实现动态手势的识别,大大提高了手势识别效果。
进一步的,利用运动向量和编码数据得到的残差来有效学习原始帧的表示,并极大地消除时间冗余,给出更快的视频处理模型;运动矢量拥有很好的运动信息,残差拥有手势的轮廓信息,两者同时拥有很好的时间信息,同时利用I帧拥有的空间信息,通过运动信息和残差积累与I帧融合达到很好的时空融合效果。
进一步的,本申请能够在本地资源受限环境中部署动态手势识别的所有算法内容,不需要通过网络传输数据到云端,提高了数据安全性,并且没有了网络传输延迟的影响,从而使动态手势识别的实时性得到了更好的保障。
一种基于视频编码数据多特征融合的动态手势识别系统,识别精度高,计算成本低,利于部署在资源受限的硬件环境下。
附图说明
图1为本发明实施例中动态手势视频编码数据序列图,图1a为原始图像序列,图1b为运动矢量序列,图1c为残差序列;
图2为本发明实施例中视频编码数据积累特征图,图2a为积累运动矢量序列,图2b为积累残差序列;
图3为本发明实施例中MFFEV框架图;
图4为本发明实施例中YUV色彩空间各个分量对比图,图4a为Y分量图像,图4b为U分量图像,图4c为V分量图像;
图5为本发明实施例中数据特征组织结构图;
图6为本发明实施例中RGB图像数据特征组织结构图;
图7为本发明实施例中基于MFFEV的手势识别框架图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
一种基于视频编码数据多特征融合的动态手势识别方法,包括以下步骤:
S1,将已知动态手势的视频编码数据分解为若干个等长度的GOP;
从图1中图像内容可以看出,图1a为原始图像序列,图1b为运动矢量序列,图1c为残差序列,由于单帧图像的运动矢量和残差的信噪比不够高,所以原始压缩编码数据的识别效果不佳,从中提取出的有效特征信息较少,从而导致使用单帧编码特征序列进行识别的精度较差;本申请视频编码数据即经过压缩的视频数据。
在本申请视频编码中,所有图像帧都是以GOP(Group of Picture,图像组)作为基本组织单位对视频数据进行压缩,并且GOP与GOP之间是没有联系的,图像帧之间的编码关系只存在于一个GOP当中,从而使得编码视频中每个GOP都有独立的数据信息,并且同时包含了I帧、运动矢量和残差的时空特征;
所以将GOP看作一个数据节点,使用视频中的所有GOP序列作为整个视频的数据,能够更全面的获取到视频中的所有特征信息,并且每个GOP序列第一帧保留完好,后边的P帧保留的是相对于前一帧的运动信息以及残差信息,可以直接从压缩视频中获取,降低了参数数量。由于整个GOP中预测帧之间的运动特征具有较强的相关性,所以通过对数据进行积累叠加,能够将其中相关性较强的特征表示的更明显,每一帧的特征也会有所保留。
以V为整个视频数据,F表示视频帧,则视频序列如公式1所示。
V={F1,F2,…,Fi,…,Fn} 式1
其中Fi为视频中一帧数据,下标i表示当前为第i帧。
本申请中每个GOP由7帧数据组成,则一个视频V中的GOP如公式2所示;
其中Gi为视频V中第i个GOP,为GOP中首帧数据数据,下标j表示整个视频V中第j帧。一个GOP中最多有k帧数据,其中k最大为7,为本申请所用编码视频数据的默认GOP大小,而一般视频末尾当帧数不足时GOP可能会小于默认大小;当GOP存在时,其中至少会有一个I帧,即GOP中的首帧所以k>0。
S2,获取每个GOP中的I帧、积累残差和积累运动矢量,采用I帧训练得到I帧识别模型,采用积累残差训练得到积累残差识别模型,采用积累运动矢量训练得到运动矢量识别模型;
使用MFFEV提取I帧、积累残差、积累运动矢量;在编码视频中,当前帧的目标像素是由前一帧中的参考像素计算的到,但是在GOP中P帧需要解码才能得到其像素信息,需要消耗系统资源。而在GOP中的首帧I帧中已经保存了当前GOP的参考像素信息,通过积累运动矢量即可回溯到GOP中的首帧I帧,使用首帧I帧的像素信息与积累运动矢量和积累残差即可计算出当前帧的像素信息。
本申请直接从编码视频中获取运动矢量,所获取的运动矢量与残差所表达的时空特征数据,并且对运动矢量和残差进行积累,能够更好的提高手势识别的效果。
设Fj(p)为一个GOP中第j帧的像素p,Mj(p)表示第j帧像素p对应的运动矢量,Rj(p)表示第j帧像素p的残差,在视频编码中由j-1帧计算得到j帧重建像素,如公式3所示;
Fj(p)=Fj-1(p-Mj(p))+Rj(p) 式3
其中p-Mj(p)为第j帧Fj的像素p在前一帧Fj-1中的参考位置,由第j帧Fj的像素p与运动矢量Mj(p)计算得到,使用qj表示当前帧在前一帧的参考位置,如公式4所示;
qj=p-Mj(p) 式4
则由第j帧Fj积累到Fk帧的参考位置如公式5所示;
τj→k+1=q1·…·qj,(k<j) 式5
第j帧Fj积累到GOP中的首帧I帧的积累运动矢量Φj如公式6所示,积累残差Δj如公式7所示;
Φj=p-τj→0 式6
Δj=R1(τj→1)+…+Rj-1(τj→j-1)+Rj(p) 式7
在得到积累运动矢量和积累残差之后,当前帧Fj(p)使用从首帧I帧积累的运动矢量和残差计算得到,只需要依赖中间帧的运动矢量与残差信息,而不需要直接依赖像素信息,计算过程如公式8所示;
Fj(p)=F0(p-Φj(p))+Δj(p) 式8
本申请I帧、积累残差和积累运动矢量直接通过压缩视频编码数据直接获取,将视频采用压缩技术降低存储量,减小处理过程中的计算量;本申请以GOP序列对视频数据进行压缩,每个GOP序列第一帧保留完好,后边的P针保留的是相对于前一帧的运动矢量以及残差信息,残差信息就是根据运动矢量跟上一帧相加得到的预测帧与实际帧之间的误差补偿;这些信息可以直接获取,不需要做过多的运算。
如图2所示,为对图1中的序列从GOP中首帧I帧进行积累的结果,其中图2a为对运动矢量进行积累的结果,图2b为对残差积累的结果,与图1中的序列相比,通过对一个GOP的运动矢量和残差进行积累能够考虑到整个GOP中的差异信息,并且积累后的数据信噪比有所提高,更清晰的表示出当前GOP的有效特征信息。
针对编码视频数据及其组织形式的特性,本发申请以编码视频中的GOP为数据节点,MFFEV处理框架如图3所示;其中I帧主要提供当前GOP数据节点的空间特征,时间特征为GOP中末帧P帧从首帧I帧开始积累的运动矢量Φ6和残差数据Δ6;
以GOP作为数据节点,对视频序列进行组织后,视频序列如公式9所示;
编码视频中的I帧经过独立解码得到的原始图像为YUV格式。如图4所示,为YUV色彩空间的三个分量,其中Y分量表示图像的明亮度,即灰阶值,U和V分量表示的则是色度,描述图像的色彩及饱和度,用于指定图像像素的颜色。在手势识别应用中,空间信息对于图像的色彩和饱和度并不关注,注重于手势的轮廓外观信息,主要由图像像素的明暗值来表示,所以使用I帧图像的Y分量数据作为空间特征数据。
每个GOP中P1帧到P6帧如公式2所示到的连续P帧,从每帧P帧中提取出运动矢量mv和残差res,并如公式6和7所示将P6帧的运动矢量和残差积累到I帧,得到积累运动矢量Φ6和积累残差Δ6。在融合过程中,首先将积累运动矢量映射到HSL颜色空间。HSL分为色调H、饱和度S、亮度L三个分量,其颜色空间比RGB色彩空间更容易跟踪某种颜色的物体,常用于分割指定颜色的物体。通过运动矢量的x轴和y轴偏移量计算出运动矢量的运动方向和运动幅度大小,分别映射到HSL的H分量和S分量,L分量使用均值。残差的原始数据使用YUV色彩空间的Y分量,U和V分量使用均值,并转换为RGB格式,从YUV色彩空间到RGB色彩空间的转换由公式10到公式12实现。
R=Y+1.402×(V-128) 式10
G=Y-0.344×(U-128)-0.714×(V-128) 式11
B=Y+1.772×(U-128) 式12
设(R,G,B)分别是一个颜色的红、绿和蓝坐标,它们的值是在0到1之间的实数。设max等价于G和B中的最大者,设min等于这些值中的最小者。要找到在HSL空间中的(H,S,L)值,这里的H在区间[0,360)是角度的色相角,而S,L在区间[0,1]是饱和度和亮度。从RGB色彩空间到HSL色彩空间的转换过程中,计算由公式13到公式15实现。
S3,将待识别动态手势视频根据步骤S1中GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作。
MFFEV得到的最终数据为GOP组的I帧YUV图像的Y分量、积累残差、积累运动矢量组成三通道的融合数据,作为时空融合分类器的输入数据。本申请通过对GOP中YUV图像的I帧、积累残差、积累运动矢量数据分别使用不同网络模型进行训练识别,每组类别的数据通过识别出来的准确率分别为p1、p2、p3,之后再对每组数据的正确率进行一个融合。在融合过程中,我们对于不同数据根据参数X对融合公式进行调整以达到最好的效果。其中设x1,x2,x3是根据数据进行调整的参数,默认值分别是0.5,0.25,0.25。所得的融合概率P由公式16计算所得,融合概率最大所对应的手势即为待识别动态手势视频中的手势动作:
P=p1×x1+p2×x2+p3×x3 式16
由于不同手势执行时间长短的不同,以及录制视频时间长短不同的影响,最终不同手势视频产生的GOP的数量也会不相同,不适合直接使用分类器进行数据分类,所以需要将待识别动态手势视频按GOP下采样到等长。待识别动态手势视频如公式17所示;
Vd为GOP下采样后的手势视频数据集,为第i个下采样手势视频数据,k为下采样后的GOP数量,所有下采样后的手势视频的GOP数量相同。具体手势视频GOP下采样方法,每个GOP进行提取数据,每个GOP的第一帧作为I帧,剩余的六帧作为P帧用于计算积累运动矢量和积累残差。
经过MFFEV提取GOP数据后,样本数据特征组织结构如图5所示,样本数据量表示整个数据集的数据量,每一条数据都由k个GOP组构成,从G1到Gk在时间上成线性关系,并且每个GOP组的数据特征包括三个分量:Y分量、积累mv和积累res。
本申请基于对原始RGB视频压缩后的数据,可以将冗余的信息减少两个数量级,本申请利用运动矢量和视频压缩中的残差来有效学习原始帧的表示,并极大地消除时间冗余,给出更快的视频处理模型;其中运动矢量拥有很好的运动信息、残差拥有手势的轮廓信息,这两者拥有很好的时间信息。而I帧又拥有很好的空间信息(颜色信息),通过融合这三种信息,可以达到很好的时空融合效果。
本发明一种基于视频编码数据多特征融合的动态手势识别系统,包括数据预处理模块、预训练模块和识别模块;数据预处理模块用于将已知动态手势的视频数据分解为若干个等长度的GOP,获取每个GOP中的I帧、积累残差和积累运动矢量,并根据采集的I帧、积累残差和积累运动矢量分别在预训练模块中预训练得到I帧识别模型、积累残差识别模型和运动矢量识别模型;
识别模块用于存储I帧识别模型、积累残差识别模型和运动矢量识别模型,并将输入的待识别动态手势视频根据GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率所对应的手势动作即为待识别动态手势视频中的手势动作进行输出。
常规识别任务的数据特征组织形式不存在时间维度的数据特征,如图6中的RGB图像数据,其每个样本数据仅包括同一时间点的R、G、B特征。对于此类只包含一个时间维度的多特征数据的分类任务,如今CNN已经能够完美的胜任。但是对于图5包括GOP维度的多维度多特征数据,传统神经网络算法还是难以直接实现分类任务,但为了实现对拥有时间维度特征的数据进行分类,往往会通过应用多个CNN,分别从空间维度和时间维度方面进行特征提取。或者对神经网络进行维度修改,通过3DCNN同时对时间维度数据进行卷积运算提取特征,但是神经网络本身难以得到数据特征在时间维度关联信息。且这类模型在算法复杂度、算力和存储代价上并不具备优势。
为了使用机器算法解决序列数据类应用问题,如语音识别、行为识别、自然语言处理等,为此出现了相关机器学习,如动态时间归整(Dynamic Time Warping,DTW)、隐含马尔柯夫模型(Hidden Markov Model,HMM)等,以及深度学习模型,如RNN、LSTM等。深度学习模型相比机器学习模型更高度的非线性,能够学习更长更多的时域特征信息。近年出现了一种新的序列特征处理深度学习模型,门控循环单元(Gate Recurrent Unit,GRU)。GRU是RNN的一种,和LSTM一样,也是为了解决标准RNN在长期记忆和反向传播中的梯度等问题而提出来的,能够缓解在长序列训练过程中的梯度消失和梯度爆炸问题,所以在长序列中拥有更好的表现。通过研究发现在同等节点数量时GRU的参数量更优于LSTM,这是因为GRU仅包含一个重置门(reset gate)和一个更新门(update gate),相比LSTM的控制门数量少很多。但是在对不同数据集的训练和测试中两种模型的表现效果相似。但是在训练的收敛时间上,GRU的表现更好,所以GRU网络的训练难度更低。
本发明使用卷积代替原始GRU中的全连接计算,称为卷积门控循环单元(Convolution Gate Recurrent Unit,Conv-GRU)。因为卷积拥有局部连接、权值共享的特性,降低了参数数量,并且对于图像数据可以降低网络复杂度,并且卷积具有更高的鲁棒性,同时能够有效的防止过拟合。对于如图5数据特征组织结构,Conv-GRU非常适合于处理此类多维度多特征的数据。每个GOP的数据作为Conv-GRU一个节点的输入x,Conv-GRU将所有GOP按时序连接,每一个Conv-GRU节点中有效的信息h都会被传递到其后的节点GOP,能够考虑到动态手势在执行中时序前后的关联性。根据手势视频GOP的下采样长度k,使用k个Conv-GRU节点组织模型。如图7示为本发明提出的基于MFFEV的动态手势识别框架,以原始编码视频作为模型的输入数据,经过MFFEV将编码视频中GOP的数据特征进行积累和融合,每个融合数据作为一个Conv-GRU节点的输入数据,并且使用了两层Conv-GRU对特征进行处理。最后一层Conv-GRU中每个节点的数据经过全连接层提取特征,最后使用Softmax进行融合得到最终的识别结果。
上面结合附图对本发明实施例进行了描述,但是本发明并不局限于上述的具体实施例,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请公开的启示下,在不脱离本申请实施例内容和权利要求所保护的范围情况下,还可作出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,包括以下步骤:
S1,将已知动态手势的视频编码数据分解为若干个等长度的GOP;
S2,获取每个GOP中的I帧、积累残差和积累运动矢量,采用I帧训练得到I帧识别模型,采用积累残差训练得到积累残差识别模型,采用积累运动矢量训练得到运动矢量识别模型;
S3,将待识别动态手势视频根据步骤S1中GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作。
2.根据权利要求1所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,每个GOP包括7帧数据。
4.根据权利要求3所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,
第j帧Fj积累到GOP中的首帧I帧的积累运动矢量Φj如公式6所示,积累残差Δj如公式7所示;
Φj=p-τj→0 式6
Δj=R1(τj→1)+…+Rj-1(τj→j-1)+Rj(p) 式7
式中:p为当前帧Fj的像素,τj→0表示由第j帧Fj积累到首帧I帧的参考位置,Rj(p)表示第j帧像素p的残差,τj→j-1表示由第j帧Fj积累到前一帧的参考位置。
5.根据权利要求3所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,使用首帧I帧的像素信息与积累运动矢量和积累残差计算出当前帧的像素信息。
6.根据权利要求1所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,在融合过程中,首先将积累运动矢量映射到HSL颜色空间,通过运动矢量的x轴和y轴偏移量计算出运动矢量的运动方向和运动幅度大小,分别映射到HSL的H分量和S分量,L分量使用均值;残差的原始数据使用YUV色彩空间的Y分量,U和V分量使用均值,并转换为RGB格式。
8.根据权利要求1所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率为p1、p2、p3,根据公式16计算融合概率P:
P=p1×x1+p2×x2+p3×x3 式16
x1,x2,x3是根据数据进行调整的参数。
9.根据权利要求8所述的一种基于视频编码数据多特征融合的动态手势识别方法,其特征在于,x1,x2,x3分别取值为0.5,0.25,0.25。
10.一种基于视频编码数据多特征融合的动态手势识别系统,其特征在于,包括数据预处理模块、预训练模块和识别模块;
数据预处理模块用于将已知动态手势的视频编码数据分解为若干个等长度的GOP,获取每个GOP中的I帧、积累残差和积累运动矢量,并根据采集的I帧、积累残差和积累运动矢量分别在预训练模块中预训练得到I帧识别模型、积累残差识别模型和运动矢量识别模型;
识别模块用于存储I帧识别模型、积累残差识别模型和运动矢量识别模型,并将输入的待识别动态手势视频根据GOP下采样到等长,将下采样后的视频数据分别通过I帧识别模型、积累残差识别模型和运动矢量识别模型获取三个准确率,将获取的三个准确率进行融合得到最终融合概率,最终融合概率最大所对应的手势动作即为待识别动态手势视频中的手势动作进行输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920085.5A CN113489958A (zh) | 2021-08-11 | 2021-08-11 | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920085.5A CN113489958A (zh) | 2021-08-11 | 2021-08-11 | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113489958A true CN113489958A (zh) | 2021-10-08 |
Family
ID=77946323
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110920085.5A Withdrawn CN113489958A (zh) | 2021-08-11 | 2021-08-11 | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113489958A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116761018A (zh) * | 2023-08-18 | 2023-09-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的实时渲染系统 |
CN117671777A (zh) * | 2023-10-17 | 2024-03-08 | 广州易而达科技股份有限公司 | 一种基于雷达的手势识别方法、装置、设备及存储介质 |
-
2021
- 2021-08-11 CN CN202110920085.5A patent/CN113489958A/zh not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116761018A (zh) * | 2023-08-18 | 2023-09-15 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的实时渲染系统 |
CN116761018B (zh) * | 2023-08-18 | 2023-10-17 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于云平台的实时渲染系统 |
CN117671777A (zh) * | 2023-10-17 | 2024-03-08 | 广州易而达科技股份有限公司 | 一种基于雷达的手势识别方法、装置、设备及存储介质 |
CN117671777B (zh) * | 2023-10-17 | 2024-05-14 | 广州易而达科技股份有限公司 | 一种基于雷达的手势识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022111236A1 (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
Zhao et al. | Learning to forecast and refine residual motion for image-to-video generation | |
CN107609460B (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
WO2022073282A1 (zh) | 一种基于特征交互学习的动作识别方法及终端设备 | |
WO2023070695A1 (zh) | 一种红外图像的转换训练方法、装置、设备及存储介质 | |
CN113989933B (zh) | 一种在线行为识别模型训练、检测方法及系统 | |
CN114694089B (zh) | 一种新型的多模态融合的行人重识别方法 | |
CN114332573A (zh) | 基于注意力机制的多模态信息融合识别方法及系统 | |
CN113489958A (zh) | 一种基于视频编码数据多特征融合的动态手势识别方法及系统 | |
CN114708297A (zh) | 一种视频目标跟踪方法及装置 | |
CN116994176A (zh) | 一种基于多维语义信息的视频关键数据提取方法 | |
CN112766217A (zh) | 基于解纠缠和特征级差异学习的跨模态行人重识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN112488014B (zh) | 基于门控循环单元的视频预测方法 | |
CN115797827A (zh) | 一种基于双流网络架构的ViT的人体行为识别方法 | |
CN113705384A (zh) | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 | |
CN114913342A (zh) | 融合事件和图像的运动模糊图像线段检测方法及系统 | |
CN113033283B (zh) | 一种改进的视频分类系统 | |
CN111680618A (zh) | 基于视频数据特性的动态手势识别方法、存储介质和设备 | |
CN113822117B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN114937153B (zh) | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 | |
CN116824641A (zh) | 姿态分类方法、装置、设备和计算机存储介质 | |
CN116958642A (zh) | 一种图片分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211008 |
|
WW01 | Invention patent application withdrawn after publication |