CN112699837A - 一种基于深度学习的手势识别方法及设备 - Google Patents
一种基于深度学习的手势识别方法及设备 Download PDFInfo
- Publication number
- CN112699837A CN112699837A CN202110041020.3A CN202110041020A CN112699837A CN 112699837 A CN112699837 A CN 112699837A CN 202110041020 A CN202110041020 A CN 202110041020A CN 112699837 A CN112699837 A CN 112699837A
- Authority
- CN
- China
- Prior art keywords
- hand
- gesture recognition
- gesture
- network
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000010586 diagram Methods 0.000 claims description 42
- 238000001514 detection method Methods 0.000 claims description 39
- 230000036544 posture Effects 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000005764 inhibitory process Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
- G06V40/113—Recognition of static hand signs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的手势识别方法及设备,包括如下步骤:步骤1,训练数据集准备;步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
Description
技术领域
本发明涉及图像视觉识别领域,特别涉及一种基于深度学习的手势识别方法及设备。
背景技术
目前,对手势识别的技术应用主要分为手势检测识别和关键点检测两大任务来完成,受MTCNN的启发,手部关键点检测技术,现有的技术方案大多数借鉴CPM(ConvolutionalPose Machines)思想,它也是OpenPose的技术前生,采用姿态估计最流行的自下而上方法之一,首先检测属于图像中每个人的部位(关键点),然后将部位分配给不同的个体,各特征点响应图来表达各部件之间的空间约束。缺点是仅仅对关键点位置进行估计,并没有对关键点相关结构进行约束,而且该结构对硬件成本要求高,无法达到实时性能,不利于部署。
发明内容
本发明要解决的技术问题是,提供一种将手部关键点检测融入到手势检测网络,且对手部关键点结构关系进行约束,可以提升目标检测精度、提升关键点检测速度并减小硬件要求的手势识别方法,
本发明的技术方案为:
一种基于深度学习的手势识别方法,包括如下步骤:
步骤1,训练数据集准备;
步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
所述多任务学习包括3个分支:
手势姿态分类分支,对多种单手手势姿态进行分类;
手部区域定位分支,预测手部预测框中心点位置以及预测框长和宽;
手部关键点检测分支,用于输出若干个手部关键点热力图;
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
进一步的,所述步骤3中将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
将图像输入所述手势识别网络进行特征提取与融合;
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
xx进一步的,所述步骤2的手势识别网络构建还包括损失函数设定,所述手势姿态分类分支的损失函数表示为:
进一步的,所述手部区域定位分支的损失函数设定具体如下:
令手部区域第i个真实值矩形框其中,表示矩形框中心点坐标,和分别表示矩形框的宽和高;令手部区域第i个预测候选框ti={tx,ty,tw,th}i,(tx,ty)表示预测候选框中心点坐标,tw和th分别表示预测候选框的宽和高;则所述手部区域检测分支的损失函数表示为:
进一步的,所述手部关键点检测分支的损失函数具体设定如下:
手部关键点数量设定为21个,手部关键点输出结果包括G1和G6两种模式,所述G1模式设定为将21个手部关键点组成一组手部关键点热力图;所述G6模式设定为包括6组手部关键点热力图,所述6组手部关键点热力图分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图;则所述手部关键点检测分支的损失函数公式为:
进一步的,所述步骤2中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合,具体步骤包括:
令特征金字塔表示为Ci={C2,C3,C4,C5,C6},式中,C2、C3、C4、C5以及C6分别为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果;令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
进一步的,所述步骤2中用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
进一步的,所述步骤2中融合后的每层特征图分别与3x3的卷积核进行卷积操作,输出的特征图进行多任务学习。
进一步的,所述步骤2中手势姿态分类分支的网络卷积层由1x1x1的卷积组成;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
一种基于深度学习的手势识别设备,包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行上述方案所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
与现有技术相比,本发明具有如下有益效果:
1、本发明方案将手部区域定位、手势姿态识别以及手部关键点检测结合在一起,设计一个多任务的深度学习网络,经过训练和网络优化后,可同时解决手势检测识别和手部关键点检测的问题;2、本发明提供的深度学习网络中可以提取丰富的手部信息,将手部结构信息(即手部关键点信息)融入到手势姿态估计中,在手势姿态检测中利用关键点生成的热力图(G1和G6两种模式热力图合成二维手部掩模)融合到姿态估计中,对最终loss进行校正,提升目标检测的精度;3、本发明方案对手部关键点位置进行估计的同时,对关键点相关结构进行约束,即设置的损失函数中包含对关键点间的结构约束关系,因此,在关键点检测过程中,提升了检测速度并减小了对硬件的要求。
附图说明
图1为本发明手势识别方法的流程图;
图2为本发明手势识别方法网络的整体结构图;
图3为本发明手势识别方法网络多任务学习的示意图;
图4为本发明手势识别方法手部关键点检测分支G1和G6模式结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
一种基于深度学习的手势识别方法,参见图1,包括如下步骤:
S1、步骤1,训练数据集准备;
S2、步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
参见图2,本实施例中,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
本实施例中,上述步骤中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合的融合,具体步骤包括:
令特征金字塔FPN表示为Ci={C2,C3,C4,C5,C6},C2、C3、C4、C5以及C6为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果,与原图相比的步长Stride分别取{4,8,16,32,64};令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
进一步的,融合后的特征金字塔经过一个Context module结构,全部都是用3x3卷积构成的,即融合后的每层特征图分别与3x3的卷积核进行卷积操作,生成分类的头和回归头得到网络的输出,进行多任务学习。
参见图3,所述多任务学习包括3个分支:
手势姿态分类分支,采用softmax作为分类器,对多种单手手势姿态进行分类;手势姿态分类分支的网络卷积层由1x1x1的卷积组成;
手部区域定位分支,用于预测手部中心点的位置以及预测框长和宽;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;
手部关键点检测分支,用于输出若干个手部关键点热力图;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
进一步的,本发明实施例的手势识别网络构建还包括损失函数设定,所述手势姿态分类分支的损失函数表示为:
进一步的,所述手部区域检测分支的损失函数设定具体如下:
令手部区域第i个真实值矩形框其中,表示矩形框中心点坐标,和分别表示矩形框的宽和高;令手部区域第i个预测候选框ti={tx,ty,tw,th}i,(tx,ty)表示预测候选框中心点坐标,tw和th分别表示预测候选框的宽和高;则所述手部区域检测分支的损失函数表示为:
进一步的,手部关键点检测分支的损失函数具体设定如下:
参见图4,手部关键点数量设定为21个,手部关键点输出结果包括(1)G1和(2)G6两种模式,所述G1模式为21个手部关键点组成手部关键点热力图,形成整个手掌热力图,更注重整体;所述G6模式包括6组热力图,分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图,更关注局部细节,损失函数表示为:
其中,表示第i个手部关键点的真实值与预测值的均方误差;式中,表示G1模式下,第i个手部关键点的真实值和预测值的交叉熵误差;表示G6模式下,第i个手部关键点的真实值和预测值的交叉熵误差CE Loss(Cross Entropy Loss);λ1和λ2均为常数,均取值0.25。
这里将G分为两种模式G1和G6,如图3所示,左图G1模式将21个关键点组合,形成整个手掌热力图,更注重整体;右图G6将21个关键点分为6组,5个手指和1个手掌,更关注局部细节,则损失函数公式中G1和G6模式下的交叉熵误差公式如下:其中G表示分组情况,本实施例同时用到G1和G6共有7种结构,即g有7种取值;I表示关键点;表示点p在两个关键点pi和点pj之间的高斯分布情况。S*(p|g)=max(S(p|L1),S(p|L2),...,S(p|L|g|))表示真实值中所有图像点高斯分布概率中的最大值,表示p点在g结构下的分布情况预测值。
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
本发明的一种实施例中,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
本发明实施例图像大小选择640x640x3的图像输入到所述手势识别网络每一层的步长Stride分别设为{4,8,16,32,64};本发明的实施例中,手势种类设置为19+1种单身手势姿态,其中1表示除了19种以为的其他手势动作;本实施例中,手部关键点的数量设置为21个。
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
步骤4,将各分支的预测结果分别与训练数据集中对应的标签数据(即真实值)进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
本发明还提供一种基于深度学习的手势识别设备,包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行上述任一项方案所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (10)
1.一种基于深度学习的手势识别方法,其特征在于:包括如下步骤:
步骤1,训练数据集准备;
步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
所述多任务学习包括3个分支:
手势姿态分类分支,对多种单手手势姿态进行分类;
手部区域定位分支,预测手部预测框中心点位置以及预测框长和宽;
手部关键点检测分支,用于输出若干个手部关键点热力图;
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
2.如权利要求1所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤3中将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
将图像输入所述手势识别网络进行特征提取与融合;
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
5.如权利要求4所述的一种基于深度学习的手势识别方法,其特征在于:所述手部关键点检测分支的损失函数具体设定如下:
手部关键点数量设定为21个,手部关键点输出结果包括G1和G6两种模式,所述G1模式设定为将21个手部关键点组成一组手部关键点热力图;所述G6模式设定为包括6组手部关键点热力图,所述6组手部关键点热力图分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图;则所述手部关键点检测分支的损失函数公式为:
6.如权利要求5所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合,具体步骤包括:
令特征金字塔表示为Ci={C2,C3,C4,C5,C6},式中,C2、C3、C4、C5以及C6分别为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果;令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
7.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
8.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中融合后的每层特征图分别与3x3的卷积核进行卷积操作,输出的特征图进行多任务学习。
9.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中手势姿态分类分支的网络卷积层由1x1x1的卷积组成;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
10.一种基于深度学习的手势识别设备,其特征在于:包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行权利要求1-9任意一项所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041020.3A CN112699837A (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习的手势识别方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110041020.3A CN112699837A (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习的手势识别方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699837A true CN112699837A (zh) | 2021-04-23 |
Family
ID=75514296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110041020.3A Pending CN112699837A (zh) | 2021-01-13 | 2021-01-13 | 一种基于深度学习的手势识别方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699837A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378773A (zh) * | 2021-06-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 手势识别方法、装置、设备、存储介质以及程序产品 |
CN113408502A (zh) * | 2021-08-19 | 2021-09-17 | 深圳市信润富联数字科技有限公司 | 手势识别方法及装置、存储介质、电子设备 |
CN113420848A (zh) * | 2021-08-24 | 2021-09-21 | 深圳市信润富联数字科技有限公司 | 神经网络模型的训练方法及装置、手势识别的方法及装置 |
CN113657204A (zh) * | 2021-07-28 | 2021-11-16 | 浙江大华技术股份有限公司 | 手势识别方法以及相关设备 |
CN114332933A (zh) * | 2021-12-29 | 2022-04-12 | 苏州臻迪智能科技有限公司 | 一种模型训练、手势识别方法、装置、设备及介质 |
JP2023527615A (ja) * | 2021-04-28 | 2023-06-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム |
WO2024007938A1 (zh) * | 2022-07-04 | 2024-01-11 | 北京字跳网络技术有限公司 | 一种多任务预测方法、装置、电子设备及存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426850A (zh) * | 2015-11-23 | 2016-03-23 | 深圳市商汤科技有限公司 | 一种基于人脸识别的关联信息推送设备及方法 |
US20170344808A1 (en) * | 2016-05-28 | 2017-11-30 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
CN109214282A (zh) * | 2018-08-01 | 2019-01-15 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
KR20190050639A (ko) * | 2017-11-03 | 2019-05-13 | 주식회사 케이티 | 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법 |
EP3493106A1 (en) * | 2017-12-03 | 2019-06-05 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
CN109858357A (zh) * | 2018-12-27 | 2019-06-07 | 深圳市赛亿科技开发有限公司 | 一种手势识别方法及系统 |
CN109886121A (zh) * | 2019-01-23 | 2019-06-14 | 浙江大学 | 一种遮挡鲁棒的人脸关键点定位方法 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
CN110728192A (zh) * | 2019-09-16 | 2020-01-24 | 河海大学 | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 |
CN110781765A (zh) * | 2019-09-30 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种人体姿态识别方法、装置、设备及存储介质 |
CN111209861A (zh) * | 2020-01-06 | 2020-05-29 | 浙江工业大学 | 一种基于深度学习的动态手势动作识别方法 |
CN111553280A (zh) * | 2020-04-28 | 2020-08-18 | 上海无线电设备研究所 | 基于深度学习的目标部位识别方法 |
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
US20200387698A1 (en) * | 2018-07-10 | 2020-12-10 | Tencent Technology (Shenzhen) Company Limited | Hand key point recognition model training method, hand key point recognition method and device |
CN112149645A (zh) * | 2020-11-10 | 2020-12-29 | 西北工业大学 | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 |
CN112149590A (zh) * | 2020-09-28 | 2020-12-29 | 河南威虎智能科技有限公司 | 一种手部关键点检测方法 |
-
2021
- 2021-01-13 CN CN202110041020.3A patent/CN112699837A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105426850A (zh) * | 2015-11-23 | 2016-03-23 | 深圳市商汤科技有限公司 | 一种基于人脸识别的关联信息推送设备及方法 |
US20170344808A1 (en) * | 2016-05-28 | 2017-11-30 | Samsung Electronics Co., Ltd. | System and method for a unified architecture multi-task deep learning machine for object recognition |
KR20190050639A (ko) * | 2017-11-03 | 2019-05-13 | 주식회사 케이티 | 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법 |
EP3493106A1 (en) * | 2017-12-03 | 2019-06-05 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
WO2019108252A1 (en) * | 2017-12-03 | 2019-06-06 | Facebook, Inc. | Optimizations for dynamic object instance detection, segmentation, and structure mapping |
US20200387698A1 (en) * | 2018-07-10 | 2020-12-10 | Tencent Technology (Shenzhen) Company Limited | Hand key point recognition model training method, hand key point recognition method and device |
CN109214282A (zh) * | 2018-08-01 | 2019-01-15 | 中南民族大学 | 一种基于神经网络的三维手势关键点检测方法和系统 |
CN109858357A (zh) * | 2018-12-27 | 2019-06-07 | 深圳市赛亿科技开发有限公司 | 一种手势识别方法及系统 |
CN109886121A (zh) * | 2019-01-23 | 2019-06-14 | 浙江大学 | 一种遮挡鲁棒的人脸关键点定位方法 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110334584A (zh) * | 2019-05-20 | 2019-10-15 | 广东工业大学 | 一种基于区域全卷积网络的手势识别方法 |
US20200372246A1 (en) * | 2019-05-21 | 2020-11-26 | Magic Leap, Inc. | Hand pose estimation |
CN110728192A (zh) * | 2019-09-16 | 2020-01-24 | 河海大学 | 一种基于新型特征金字塔深度网络的高分遥感图像分类方法 |
CN110781765A (zh) * | 2019-09-30 | 2020-02-11 | 腾讯科技(深圳)有限公司 | 一种人体姿态识别方法、装置、设备及存储介质 |
CN111209861A (zh) * | 2020-01-06 | 2020-05-29 | 浙江工业大学 | 一种基于深度学习的动态手势动作识别方法 |
CN111553280A (zh) * | 2020-04-28 | 2020-08-18 | 上海无线电设备研究所 | 基于深度学习的目标部位识别方法 |
CN112149590A (zh) * | 2020-09-28 | 2020-12-29 | 河南威虎智能科技有限公司 | 一种手部关键点检测方法 |
CN112149645A (zh) * | 2020-11-10 | 2020-12-29 | 西北工业大学 | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 |
Non-Patent Citations (2)
Title |
---|
刘玮;戴仕明;杨文姬;杨红云;钱文彬;: "基于级联卷积神经网络的彩色图像三维手势估计", 小型微型计算机系统, no. 03, pages 558 - 563 * |
朱鹏;陈虎;李科;程宾洋;: "一种轻量级的多尺度特征人脸检测方法", 计算机技术与发展, no. 04, pages 1 - 7 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023527615A (ja) * | 2021-04-28 | 2023-06-30 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム |
CN113378773A (zh) * | 2021-06-29 | 2021-09-10 | 北京百度网讯科技有限公司 | 手势识别方法、装置、设备、存储介质以及程序产品 |
CN113378773B (zh) * | 2021-06-29 | 2023-08-08 | 北京百度网讯科技有限公司 | 手势识别方法、装置、设备、存储介质以及程序产品 |
CN113657204A (zh) * | 2021-07-28 | 2021-11-16 | 浙江大华技术股份有限公司 | 手势识别方法以及相关设备 |
CN113408502A (zh) * | 2021-08-19 | 2021-09-17 | 深圳市信润富联数字科技有限公司 | 手势识别方法及装置、存储介质、电子设备 |
CN113408502B (zh) * | 2021-08-19 | 2021-12-21 | 深圳市信润富联数字科技有限公司 | 手势识别方法及装置、存储介质、电子设备 |
CN113420848A (zh) * | 2021-08-24 | 2021-09-21 | 深圳市信润富联数字科技有限公司 | 神经网络模型的训练方法及装置、手势识别的方法及装置 |
CN114332933A (zh) * | 2021-12-29 | 2022-04-12 | 苏州臻迪智能科技有限公司 | 一种模型训练、手势识别方法、装置、设备及介质 |
WO2024007938A1 (zh) * | 2022-07-04 | 2024-01-11 | 北京字跳网络技术有限公司 | 一种多任务预测方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112699837A (zh) | 一种基于深度学习的手势识别方法及设备 | |
JP7386545B2 (ja) | 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN109948526B (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN110738207A (zh) | 一种融合文字图像中文字区域边缘信息的文字检测方法 | |
CN109753891A (zh) | 基于人体关键点检测的足球运动员姿势校准方法及系统 | |
CN110428428A (zh) | 一种图像语义分割方法、电子设备和可读存储介质 | |
CN109522938A (zh) | 一种基于深度学习的图像中目标的识别方法 | |
JP2001056861A (ja) | 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体 | |
CN111179419A (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN110674685B (zh) | 一种基于边缘信息增强的人体解析分割模型及方法 | |
US20230137337A1 (en) | Enhanced machine learning model for joint detection and multi person pose estimation | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN113191338B (zh) | 一种行人重识别方法、装置、设备及可读存储介质 | |
CN113128424A (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN110458864A (zh) | 基于整合语义知识和实例特征的目标跟踪方法与目标跟踪器 | |
CN114764869A (zh) | 利用每个对象的单个检测的多对象检测 | |
CN111062438A (zh) | 基于相关学习的图传播的弱监督细粒度图像分类算法 | |
CN117593794A (zh) | 改进的YOLOv7-tiny模型及基于该模型的人手脸检测方法及系统 | |
EP3702958B1 (en) | Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image | |
US20230326167A1 (en) | Multi-object detection with single detection per object | |
CN117809339A (zh) | 一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法 | |
Memmesheimer et al. | Gesture recognition on human pose features of single images | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN117115824A (zh) | 一种基于笔划区域分割策略的视觉文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |