[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112699837A - 一种基于深度学习的手势识别方法及设备 - Google Patents

一种基于深度学习的手势识别方法及设备 Download PDF

Info

Publication number
CN112699837A
CN112699837A CN202110041020.3A CN202110041020A CN112699837A CN 112699837 A CN112699837 A CN 112699837A CN 202110041020 A CN202110041020 A CN 202110041020A CN 112699837 A CN112699837 A CN 112699837A
Authority
CN
China
Prior art keywords
hand
gesture recognition
gesture
network
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110041020.3A
Other languages
English (en)
Inventor
朱鹏
刘小扬
何学智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Newland Digital Technology Co ltd
Original Assignee
Newland Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Newland Digital Technology Co ltd filed Critical Newland Digital Technology Co ltd
Priority to CN202110041020.3A priority Critical patent/CN112699837A/zh
Publication of CN112699837A publication Critical patent/CN112699837A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的手势识别方法及设备,包括如下步骤:步骤1,训练数据集准备;步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。

Description

一种基于深度学习的手势识别方法及设备
技术领域
本发明涉及图像视觉识别领域,特别涉及一种基于深度学习的手势识别方法及设备。
背景技术
目前,对手势识别的技术应用主要分为手势检测识别和关键点检测两大任务来完成,受MTCNN的启发,手部关键点检测技术,现有的技术方案大多数借鉴CPM(ConvolutionalPose Machines)思想,它也是OpenPose的技术前生,采用姿态估计最流行的自下而上方法之一,首先检测属于图像中每个人的部位(关键点),然后将部位分配给不同的个体,各特征点响应图来表达各部件之间的空间约束。缺点是仅仅对关键点位置进行估计,并没有对关键点相关结构进行约束,而且该结构对硬件成本要求高,无法达到实时性能,不利于部署。
发明内容
本发明要解决的技术问题是,提供一种将手部关键点检测融入到手势检测网络,且对手部关键点结构关系进行约束,可以提升目标检测精度、提升关键点检测速度并减小硬件要求的手势识别方法,
本发明的技术方案为:
一种基于深度学习的手势识别方法,包括如下步骤:
步骤1,训练数据集准备;
步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
所述多任务学习包括3个分支:
手势姿态分类分支,对多种单手手势姿态进行分类;
手部区域定位分支,预测手部预测框中心点位置以及预测框长和宽;
手部关键点检测分支,用于输出若干个手部关键点热力图;
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
进一步的,所述步骤3中将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
将图像输入所述手势识别网络进行特征提取与融合;
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
xx进一步的,所述步骤2的手势识别网络构建还包括损失函数设定,所述手势姿态分类分支的损失函数表示为:
Figure BDA0002895358670000021
其中,ci(k)表示第i个候选框是第k种手势的概率;
Figure BDA0002895358670000022
取值为0或1,当第i个候选框的真实值为第k种手势,
Figure BDA0002895358670000023
取值为1,反之取值为0;式中,N表示候选框数量,K表示手势的类别数。
进一步的,所述手部区域定位分支的损失函数设定具体如下:
令手部区域第i个真实值矩形框
Figure BDA0002895358670000024
其中,
Figure BDA0002895358670000025
表示矩形框中心点坐标,
Figure BDA0002895358670000026
Figure BDA0002895358670000027
分别表示矩形框的宽和高;令手部区域第i个预测候选框ti={tx,ty,tw,th}i,(tx,ty)表示预测候选框中心点坐标,tw和th分别表示预测候选框的宽和高;则所述手部区域检测分支的损失函数表示为:
Figure BDA0002895358670000028
其中,N表示预测候选框的数量;式中,
Figure BDA0002895358670000029
进一步的,所述手部关键点检测分支的损失函数具体设定如下:
手部关键点数量设定为21个,手部关键点输出结果包括G1和G6两种模式,所述G1模式设定为将21个手部关键点组成一组手部关键点热力图;所述G6模式设定为包括6组手部关键点热力图,所述6组手部关键点热力图分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图;则所述手部关键点检测分支的损失函数公式为:
Figure BDA00028953586700000210
其中,
Figure BDA00028953586700000211
表示手部关键点真实点的坐标,pi={px1,py1,...,px21,px21}i,表示预测的手部关键点的坐标;
其中,
Figure BDA00028953586700000212
表示第i个手部关键点的真实值与预测值的均方误差;式中,
Figure BDA0002895358670000031
表示G1模式下,第i个手部关键点的真实值和预测值的交叉熵误差;
Figure BDA0002895358670000032
表示G6模式下,第i个手部关键点的真实值和预测值的交叉熵误差;λ1和λ2均为常数。
进一步的,所述步骤2中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合,具体步骤包括:
令特征金字塔表示为Ci={C2,C3,C4,C5,C6},式中,C2、C3、C4、C5以及C6分别为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果;令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
进一步的,所述步骤2中用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
进一步的,所述步骤2中融合后的每层特征图分别与3x3的卷积核进行卷积操作,输出的特征图进行多任务学习。
进一步的,所述步骤2中手势姿态分类分支的网络卷积层由1x1x1的卷积组成;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
一种基于深度学习的手势识别设备,包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行上述方案所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
与现有技术相比,本发明具有如下有益效果:
1、本发明方案将手部区域定位、手势姿态识别以及手部关键点检测结合在一起,设计一个多任务的深度学习网络,经过训练和网络优化后,可同时解决手势检测识别和手部关键点检测的问题;2、本发明提供的深度学习网络中可以提取丰富的手部信息,将手部结构信息(即手部关键点信息)融入到手势姿态估计中,在手势姿态检测中利用关键点生成的热力图(G1和G6两种模式热力图合成二维手部掩模)融合到姿态估计中,对最终loss进行校正,提升目标检测的精度;3、本发明方案对手部关键点位置进行估计的同时,对关键点相关结构进行约束,即设置的损失函数中包含对关键点间的结构约束关系,因此,在关键点检测过程中,提升了检测速度并减小了对硬件的要求。
附图说明
图1为本发明手势识别方法的流程图;
图2为本发明手势识别方法网络的整体结构图;
图3为本发明手势识别方法网络多任务学习的示意图;
图4为本发明手势识别方法手部关键点检测分支G1和G6模式结构示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是,对于这些实施方式的说明用于帮助理解本发明,但并不构成对本发明的限定。此外,下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。
一种基于深度学习的手势识别方法,参见图1,包括如下步骤:
S1、步骤1,训练数据集准备;
S2、步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
参见图2,本实施例中,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
本实施例中,上述步骤中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合的融合,具体步骤包括:
令特征金字塔FPN表示为Ci={C2,C3,C4,C5,C6},C2、C3、C4、C5以及C6为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果,与原图相比的步长Stride分别取{4,8,16,32,64};令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
进一步的,融合后的特征金字塔经过一个Context module结构,全部都是用3x3卷积构成的,即融合后的每层特征图分别与3x3的卷积核进行卷积操作,生成分类的头和回归头得到网络的输出,进行多任务学习。
参见图3,所述多任务学习包括3个分支:
手势姿态分类分支,采用softmax作为分类器,对多种单手手势姿态进行分类;手势姿态分类分支的网络卷积层由1x1x1的卷积组成;
手部区域定位分支,用于预测手部中心点的位置以及预测框长和宽;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;
手部关键点检测分支,用于输出若干个手部关键点热力图;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
进一步的,本发明实施例的手势识别网络构建还包括损失函数设定,所述手势姿态分类分支的损失函数表示为:
Figure BDA0002895358670000051
其中,ci(k)表示第i个候选框是第k种手势姿态的概率;
Figure BDA0002895358670000052
取值为0或1,当第i个候选框的真实值为第k种手势姿态,
Figure BDA0002895358670000053
取值为1,反之取值为0;式中,N表示候选框数量,K表示手势姿态的类别数。
进一步的,所述手部区域检测分支的损失函数设定具体如下:
令手部区域第i个真实值矩形框
Figure BDA0002895358670000054
其中,
Figure BDA0002895358670000055
表示矩形框中心点坐标,
Figure BDA0002895358670000056
Figure BDA0002895358670000057
分别表示矩形框的宽和高;令手部区域第i个预测候选框ti={tx,ty,tw,th}i,(tx,ty)表示预测候选框中心点坐标,tw和th分别表示预测候选框的宽和高;则所述手部区域检测分支的损失函数表示为:
Figure BDA0002895358670000058
其中,N表示预测候选框的数量;
Figure BDA0002895358670000061
进一步的,手部关键点检测分支的损失函数具体设定如下:
参见图4,手部关键点数量设定为21个,手部关键点输出结果包括(1)G1和(2)G6两种模式,所述G1模式为21个手部关键点组成手部关键点热力图,形成整个手掌热力图,更注重整体;所述G6模式包括6组热力图,分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图,更关注局部细节,损失函数表示为:
Figure BDA0002895358670000062
其中,
Figure BDA0002895358670000063
表示手部关键点真实点的坐标,pi={px1,py1,...,px21,px21}i,表示预测的手部关键点的坐标;
其中,
Figure BDA0002895358670000064
表示第i个手部关键点的真实值与预测值的均方误差;式中,
Figure BDA0002895358670000065
表示G1模式下,第i个手部关键点的真实值和预测值的交叉熵误差;
Figure BDA0002895358670000066
表示G6模式下,第i个手部关键点的真实值和预测值的交叉熵误差CE Loss(Cross Entropy Loss);λ1和λ2均为常数,均取值0.25。
这里将G分为两种模式G1和G6,如图3所示,左图G1模式将21个关键点组合,形成整个手掌热力图,更注重整体;右图G6将21个关键点分为6组,5个手指和1个手掌,更关注局部细节,则损失函数公式中G1和G6模式下的交叉熵误差公式如下:
Figure BDA0002895358670000067
其中G表示分组情况,本实施例同时用到G1和G6共有7种结构,即g有7种取值;I表示关键点;
Figure BDA0002895358670000068
表示点p在两个关键点pi和点pj之间的高斯分布情况。S*(p|g)=max(S(p|L1),S(p|L2),...,S(p|L|g|))表示真实值中所有图像点高斯分布概率中的最大值,
Figure BDA0002895358670000069
表示p点在g结构下的分布情况预测值。
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
本发明的一种实施例中,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
本发明实施例图像大小选择640x640x3的图像输入到所述手势识别网络每一层的步长Stride分别设为{4,8,16,32,64};本发明的实施例中,手势种类设置为19+1种单身手势姿态,其中1表示除了19种以为的其他手势动作;本实施例中,手部关键点的数量设置为21个。
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
步骤4,将各分支的预测结果分别与训练数据集中对应的标签数据(即真实值)进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
本发明还提供一种基于深度学习的手势识别设备,包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行上述任一项方案所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。

Claims (10)

1.一种基于深度学习的手势识别方法,其特征在于:包括如下步骤:
步骤1,训练数据集准备;
步骤2,手势识别网络构建,包括,采用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,将特征金字塔的高层特征图与低层特征图进行融合,再将融合后的每层特征图分别与卷积核进行卷积操作,输出的特征图进行多任务学习;
所述多任务学习包括3个分支:
手势姿态分类分支,对多种单手手势姿态进行分类;
手部区域定位分支,预测手部预测框中心点位置以及预测框长和宽;
手部关键点检测分支,用于输出若干个手部关键点热力图;
步骤3,将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果;
步骤4,将各分支的预测结果分别与训练数据集中对应的标记结果进行比对,计算对应分支的损失值;将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。
2.如权利要求1所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤3中将训练数据输入所述手势识别网络进行学习,分别输出各分支的预测结果的步骤,包括:
将图像输入所述手势识别网络进行特征提取与融合;
融合后的特征金字塔特征图经过不同的分支进行多任务学习后,手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度,筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果;手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果,得到手部区域所有的预测框,然后对所有预测框执行非极大值抑制,保留符合预设阈值的预测框作为手部区域候选框;手部关键点检测分支输出21个手部关键点的坐标信息,通过这些信息描述手部关键点的热力图。
3.如权利要求1所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2的手势识别网络构建还包括损失函数设定,所述手势姿态分类分支的损失函数表示为:
Figure FDA0002895358660000011
其中,ci(k)表示第i个候选框是第k种手势的概率;
Figure FDA0002895358660000012
取值为“0”或“1”,当第i个候选框的真实值为第k种手势,
Figure FDA0002895358660000013
取值为“1”,反之取值为“0”;式中,N表示候选框数量,K表示手势的类别数。
4.如权利要求3所述的一种基于深度学习的手势识别方法,其特征在于:所述手部区域定位分支的损失函数设定具体如下:
令手部区域第i个真实值矩形框
Figure FDA0002895358660000014
其中,
Figure FDA0002895358660000015
表示矩形框中心点坐标,
Figure FDA0002895358660000016
Figure FDA0002895358660000017
分别表示矩形框的宽和高;令手部区域第i个预测候选框ti={tx,ty,tw,th}i,(tx,ty)表示预测候选框中心点坐标,tw和th分别表示预测候选框的宽和高;则所述手部区域检测分支的损失函数表示为:
Figure FDA0002895358660000021
其中,N表示预测候选框的数量;式中,
Figure FDA0002895358660000022
5.如权利要求4所述的一种基于深度学习的手势识别方法,其特征在于:所述手部关键点检测分支的损失函数具体设定如下:
手部关键点数量设定为21个,手部关键点输出结果包括G1和G6两种模式,所述G1模式设定为将21个手部关键点组成一组手部关键点热力图;所述G6模式设定为包括6组手部关键点热力图,所述6组手部关键点热力图分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图;则所述手部关键点检测分支的损失函数公式为:
Figure FDA0002895358660000023
其中,
Figure FDA0002895358660000024
表示手部关键点真实点的坐标,pi={px1,py1,...,px21,px21}i,表示预测的手部关键点的坐标;
其中,
Figure FDA0002895358660000025
表示第i个手部关键点的真实值与预测值的均方误差;式中,
Figure FDA0002895358660000026
表示G1模式下,第i个手部关键点的真实值和预测值的交叉熵误差;
Figure FDA0002895358660000027
表示G6模式下,第i个手部关键点的真实值和预测值的交叉熵误差;λ1和λ2均为常数。
6.如权利要求5所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合,具体步骤包括:
令特征金字塔表示为Ci={C2,C3,C4,C5,C6},式中,C2、C3、C4、C5以及C6分别为特征金字塔从下至上每层的特征图,分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果;令Ci经过融合后的特征金字塔表示为Pi={P2,P3,P4,P5,P6},则P6对应于C6,P5为C5经过1x1卷积后的输出结果,P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出,P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出,P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。
7.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中用resnet34网络作为基础,生成多种尺度的特征图形成特征金字塔,具体步骤如下:
输入图像的大小HxWxC设置为640x640x3;
采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2;步长Stride设置为4,输出大小为160x160x256的特征图;
采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3;步长Stride设置为8,输出大小为80x80x256的特征图;
采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4;步长Stride设置为16,输出大小为40x40x256的特征图;
采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5;步长Stride设置为32,输出大小为20x20x256的特征图;
采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6;步长Stride设置为64,输出大小为10x10x256的特征图。
8.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中融合后的每层特征图分别与3x3的卷积核进行卷积操作,输出的特征图进行多任务学习。
9.如权利要求6所述的一种基于深度学习的手势识别方法,其特征在于:所述步骤2中手势姿态分类分支的网络卷积层由1x1x1的卷积组成;所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成;所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。
10.一种基于深度学习的手势识别设备,其特征在于:包括存储器和处理器;
所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据;
所述处理器用于根据所述程序数据,执行权利要求1-9任意一项所述的深度学习手势识别方法,利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。
CN202110041020.3A 2021-01-13 2021-01-13 一种基于深度学习的手势识别方法及设备 Pending CN112699837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110041020.3A CN112699837A (zh) 2021-01-13 2021-01-13 一种基于深度学习的手势识别方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110041020.3A CN112699837A (zh) 2021-01-13 2021-01-13 一种基于深度学习的手势识别方法及设备

Publications (1)

Publication Number Publication Date
CN112699837A true CN112699837A (zh) 2021-04-23

Family

ID=75514296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110041020.3A Pending CN112699837A (zh) 2021-01-13 2021-01-13 一种基于深度学习的手势识别方法及设备

Country Status (1)

Country Link
CN (1) CN112699837A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378773A (zh) * 2021-06-29 2021-09-10 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质以及程序产品
CN113408502A (zh) * 2021-08-19 2021-09-17 深圳市信润富联数字科技有限公司 手势识别方法及装置、存储介质、电子设备
CN113420848A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 神经网络模型的训练方法及装置、手势识别的方法及装置
CN113657204A (zh) * 2021-07-28 2021-11-16 浙江大华技术股份有限公司 手势识别方法以及相关设备
CN114332933A (zh) * 2021-12-29 2022-04-12 苏州臻迪智能科技有限公司 一种模型训练、手势识别方法、装置、设备及介质
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
WO2024007938A1 (zh) * 2022-07-04 2024-01-11 北京字跳网络技术有限公司 一种多任务预测方法、装置、电子设备及存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426850A (zh) * 2015-11-23 2016-03-23 深圳市商汤科技有限公司 一种基于人脸识别的关联信息推送设备及方法
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
KR20190050639A (ko) * 2017-11-03 2019-05-13 주식회사 케이티 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법
EP3493106A1 (en) * 2017-12-03 2019-06-05 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN109858357A (zh) * 2018-12-27 2019-06-07 深圳市赛亿科技开发有限公司 一种手势识别方法及系统
CN109886121A (zh) * 2019-01-23 2019-06-14 浙江大学 一种遮挡鲁棒的人脸关键点定位方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法
CN110728192A (zh) * 2019-09-16 2020-01-24 河海大学 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111553280A (zh) * 2020-04-28 2020-08-18 上海无线电设备研究所 基于深度学习的目标部位识别方法
US20200372246A1 (en) * 2019-05-21 2020-11-26 Magic Leap, Inc. Hand pose estimation
US20200387698A1 (en) * 2018-07-10 2020-12-10 Tencent Technology (Shenzhen) Company Limited Hand key point recognition model training method, hand key point recognition method and device
CN112149645A (zh) * 2020-11-10 2020-12-29 西北工业大学 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
CN112149590A (zh) * 2020-09-28 2020-12-29 河南威虎智能科技有限公司 一种手部关键点检测方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426850A (zh) * 2015-11-23 2016-03-23 深圳市商汤科技有限公司 一种基于人脸识别的关联信息推送设备及方法
US20170344808A1 (en) * 2016-05-28 2017-11-30 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition
KR20190050639A (ko) * 2017-11-03 2019-05-13 주식회사 케이티 컨볼루션 신경망에 기반한 제스처 분류장치 및 방법
EP3493106A1 (en) * 2017-12-03 2019-06-05 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
WO2019108252A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
US20200387698A1 (en) * 2018-07-10 2020-12-10 Tencent Technology (Shenzhen) Company Limited Hand key point recognition model training method, hand key point recognition method and device
CN109214282A (zh) * 2018-08-01 2019-01-15 中南民族大学 一种基于神经网络的三维手势关键点检测方法和系统
CN109858357A (zh) * 2018-12-27 2019-06-07 深圳市赛亿科技开发有限公司 一种手势识别方法及系统
CN109886121A (zh) * 2019-01-23 2019-06-14 浙江大学 一种遮挡鲁棒的人脸关键点定位方法
CN109886225A (zh) * 2019-02-27 2019-06-14 浙江理工大学 一种基于深度学习的图像手势动作在线检测与识别方法
CN110334584A (zh) * 2019-05-20 2019-10-15 广东工业大学 一种基于区域全卷积网络的手势识别方法
US20200372246A1 (en) * 2019-05-21 2020-11-26 Magic Leap, Inc. Hand pose estimation
CN110728192A (zh) * 2019-09-16 2020-01-24 河海大学 一种基于新型特征金字塔深度网络的高分遥感图像分类方法
CN110781765A (zh) * 2019-09-30 2020-02-11 腾讯科技(深圳)有限公司 一种人体姿态识别方法、装置、设备及存储介质
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111553280A (zh) * 2020-04-28 2020-08-18 上海无线电设备研究所 基于深度学习的目标部位识别方法
CN112149590A (zh) * 2020-09-28 2020-12-29 河南威虎智能科技有限公司 一种手部关键点检测方法
CN112149645A (zh) * 2020-11-10 2020-12-29 西北工业大学 基于生成对抗学习和图神经网络的人体姿势关键点识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘玮;戴仕明;杨文姬;杨红云;钱文彬;: "基于级联卷积神经网络的彩色图像三维手势估计", 小型微型计算机系统, no. 03, pages 558 - 563 *
朱鹏;陈虎;李科;程宾洋;: "一种轻量级的多尺度特征人脸检测方法", 计算机技术与发展, no. 04, pages 1 - 7 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023527615A (ja) * 2021-04-28 2023-06-30 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN113378773A (zh) * 2021-06-29 2021-09-10 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质以及程序产品
CN113378773B (zh) * 2021-06-29 2023-08-08 北京百度网讯科技有限公司 手势识别方法、装置、设备、存储介质以及程序产品
CN113657204A (zh) * 2021-07-28 2021-11-16 浙江大华技术股份有限公司 手势识别方法以及相关设备
CN113408502A (zh) * 2021-08-19 2021-09-17 深圳市信润富联数字科技有限公司 手势识别方法及装置、存储介质、电子设备
CN113408502B (zh) * 2021-08-19 2021-12-21 深圳市信润富联数字科技有限公司 手势识别方法及装置、存储介质、电子设备
CN113420848A (zh) * 2021-08-24 2021-09-21 深圳市信润富联数字科技有限公司 神经网络模型的训练方法及装置、手势识别的方法及装置
CN114332933A (zh) * 2021-12-29 2022-04-12 苏州臻迪智能科技有限公司 一种模型训练、手势识别方法、装置、设备及介质
WO2024007938A1 (zh) * 2022-07-04 2024-01-11 北京字跳网络技术有限公司 一种多任务预测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112699837A (zh) 一种基于深度学习的手势识别方法及设备
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
CN113158862B (zh) 一种基于多任务的轻量级实时人脸检测方法
CN109948526B (zh) 图像处理方法及装置、检测设备及存储介质
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN109753891A (zh) 基于人体关键点检测的足球运动员姿势校准方法及系统
CN110428428A (zh) 一种图像语义分割方法、电子设备和可读存储介质
CN109522938A (zh) 一种基于深度学习的图像中目标的识别方法
JP2001056861A (ja) 手の形状と姿勢の認識装置および手の形状と姿勢の認識方法並びに当該方法を実施するプログラムを記録した記録媒体
CN111179419A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN110674685B (zh) 一种基于边缘信息增强的人体解析分割模型及方法
US20230137337A1 (en) Enhanced machine learning model for joint detection and multi person pose estimation
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN113191338B (zh) 一种行人重识别方法、装置、设备及可读存储介质
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN110458864A (zh) 基于整合语义知识和实例特征的目标跟踪方法与目标跟踪器
CN114764869A (zh) 利用每个对象的单个检测的多对象检测
CN111062438A (zh) 基于相关学习的图传播的弱监督细粒度图像分类算法
CN117593794A (zh) 改进的YOLOv7-tiny模型及基于该模型的人手脸检测方法及系统
EP3702958B1 (en) Method for verifying the identity of a user by identifying an object within an image that has a biometric characteristic of the user and separating a portion of the image comprising the biometric characteristic from other portions of the image
US20230326167A1 (en) Multi-object detection with single detection per object
CN117809339A (zh) 一种基于可变形卷积编码网络和特征区域关注的人体姿态估计方法
Memmesheimer et al. Gesture recognition on human pose features of single images
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN117115824A (zh) 一种基于笔划区域分割策略的视觉文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination