CN112699837A

CN112699837A - 一种基于深度学习的手势识别方法及设备

Info

Publication number: CN112699837A
Application number: CN202110041020.3A
Authority: CN
Inventors: 朱鹏; 刘小扬; 何学智
Original assignee: Newland Digital Technology Co ltd
Current assignee: Newland Digital Technology Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-23

Abstract

本发明公开了一种基于深度学习的手势识别方法及设备，包括如下步骤：步骤1，训练数据集准备；步骤2，手势识别网络构建，包括，采用resnet34网络作为基础，生成多种尺度的特征图形成特征金字塔，将特征金字塔的高层特征图与低层特征图进行融合，再将融合后的每层特征图分别与卷积核进行卷积操作，输出的特征图进行多任务学习；步骤3，将训练数据输入所述手势识别网络进行学习，分别输出各分支的预测结果；步骤4，将各分支的预测结果分别与训练数据集中对应的标记结果进行比对，计算对应分支的损失值；将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。

Description

一种基于深度学习的手势识别方法及设备

技术领域

本发明涉及图像视觉识别领域，特别涉及一种基于深度学习的手势识别方法及设备。

背景技术

目前，对手势识别的技术应用主要分为手势检测识别和关键点检测两大任务来完成，受MTCNN的启发，手部关键点检测技术，现有的技术方案大多数借鉴CPM(ConvolutionalPose Machines)思想，它也是OpenPose的技术前生，采用姿态估计最流行的自下而上方法之一，首先检测属于图像中每个人的部位(关键点)，然后将部位分配给不同的个体，各特征点响应图来表达各部件之间的空间约束。缺点是仅仅对关键点位置进行估计，并没有对关键点相关结构进行约束，而且该结构对硬件成本要求高，无法达到实时性能，不利于部署。

发明内容

本发明要解决的技术问题是，提供一种将手部关键点检测融入到手势检测网络，且对手部关键点结构关系进行约束，可以提升目标检测精度、提升关键点检测速度并减小硬件要求的手势识别方法，

本发明的技术方案为：

一种基于深度学习的手势识别方法，包括如下步骤：

步骤1，训练数据集准备；

步骤2，手势识别网络构建，包括，采用resnet34网络作为基础，生成多种尺度的特征图形成特征金字塔，将特征金字塔的高层特征图与低层特征图进行融合，再将融合后的每层特征图分别与卷积核进行卷积操作，输出的特征图进行多任务学习；

所述多任务学习包括3个分支：

手势姿态分类分支，对多种单手手势姿态进行分类；

手部区域定位分支，预测手部预测框中心点位置以及预测框长和宽；

手部关键点检测分支，用于输出若干个手部关键点热力图；

步骤3，将训练数据输入所述手势识别网络进行学习，分别输出各分支的预测结果；

步骤4，将各分支的预测结果分别与训练数据集中对应的标记结果进行比对，计算对应分支的损失值；将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。

进一步的，所述步骤3中将训练数据输入所述手势识别网络进行学习，分别输出各分支的预测结果的步骤，包括：

将图像输入所述手势识别网络进行特征提取与融合；

融合后的特征金字塔特征图经过不同的分支进行多任务学习后，手势姿态分类分支输出该图像手势姿态分别属于各个预设类别手势姿态的相似度，筛选出相似度符合阈值的对应手势姿态作为手势姿态识别结果；手部区域定位分支输出该图像手部区域中心点坐标以及其外接矩形长和宽的预测结果，得到手部区域所有的预测框，然后对所有预测框执行非极大值抑制，保留符合预设阈值的预测框作为手部区域候选框；手部关键点检测分支输出21个手部关键点的坐标信息，通过这些信息描述手部关键点的热力图。

xx进一步的，所述步骤2的手势识别网络构建还包括损失函数设定，所述手势姿态分类分支的损失函数表示为：

其中，c_i(k)表示第i个候选框是第k种手势的概率；

取值为0或1，当第i个候选框的真实值为第k种手势，

取值为1，反之取值为0；式中，N表示候选框数量，K表示手势的类别数。

进一步的，所述手部区域定位分支的损失函数设定具体如下：

令手部区域第i个真实值矩形框

其中，

表示矩形框中心点坐标，

和

分别表示矩形框的宽和高；令手部区域第i个预测候选框t_i＝{t_x,t_y,t_w,t_h}_i，(t_x,t_y)表示预测候选框中心点坐标，t_w和t_h分别表示预测候选框的宽和高；则所述手部区域检测分支的损失函数表示为：

其中，N表示预测候选框的数量；式中，

进一步的，所述手部关键点检测分支的损失函数具体设定如下:

手部关键点数量设定为21个，手部关键点输出结果包括G1和G6两种模式，所述G1模式设定为将21个手部关键点组成一组手部关键点热力图；所述G6模式设定为包括6组手部关键点热力图，所述6组手部关键点热力图分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图；则所述手部关键点检测分支的损失函数公式为：

其中，

表示手部关键点真实点的坐标，p_i＝{p_x1,p_y1,...,p_x21,p_x21}_i，表示预测的手部关键点的坐标；

其中，

表示第i个手部关键点的真实值与预测值的均方误差；式中，

表示G1模式下，第i个手部关键点的真实值和预测值的交叉熵误差；

表示G6模式下，第i个手部关键点的真实值和预测值的交叉熵误差；λ₁和λ₂均为常数。

进一步的，所述步骤2中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合，具体步骤包括：

令特征金字塔表示为Ci＝{C2,C3,C4,C5,C6}，式中，C2、C3、C4、C5以及C6分别为特征金字塔从下至上每层的特征图，分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果；令Ci经过融合后的特征金字塔表示为Pi＝{P2,P3,P4,P5,P6}，则P6对应于C6，P5为C5经过1x1卷积后的输出结果，P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出，P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出，P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。

进一步的，所述步骤2中用resnet34网络作为基础，生成多种尺度的特征图形成特征金字塔，具体步骤如下：

输入图像的大小HxWxC设置为640x640x3；

采用Resnet34网络conv2的卷积输出作为特征金字塔的第一层特征图C2；步长Stride设置为4，输出大小为160x160x256的特征图；

采用第一层特征图C2与Resnet34网络conv3的卷积输出作为特征金字塔的第二层特征图C3；步长Stride设置为8，输出大小为80x80x256的特征图；

采用第二层特征图C3与Resnet34网络conv4的卷积输出作为特征金字塔的第三层特征图C4；步长Stride设置为16，输出大小为40x40x256的特征图；

采用第三层特征图C4与Resnet34网络conv5的卷积输出作为特征金字塔的第四层特征图C5；步长Stride设置为32，输出大小为20x20x256的特征图；

采用第四层特征图C5与Resnet34网络conv6的卷积输出作为特征金字塔的第五层特征图C6；步长Stride设置为64，输出大小为10x10x256的特征图。

进一步的，所述步骤2中融合后的每层特征图分别与3x3的卷积核进行卷积操作，输出的特征图进行多任务学习。

进一步的，所述步骤2中手势姿态分类分支的网络卷积层由1x1x1的卷积组成；所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成；所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。

一种基于深度学习的手势识别设备，包括存储器和处理器；

所述存储器用于存储数据训练集、构建的深度学习手势识别网络以及程序数据；

所述处理器用于根据所述程序数据，执行上述方案所述的深度学习手势识别方法，利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。

与现有技术相比，本发明具有如下有益效果：

1、本发明方案将手部区域定位、手势姿态识别以及手部关键点检测结合在一起，设计一个多任务的深度学习网络，经过训练和网络优化后，可同时解决手势检测识别和手部关键点检测的问题；2、本发明提供的深度学习网络中可以提取丰富的手部信息，将手部结构信息(即手部关键点信息)融入到手势姿态估计中，在手势姿态检测中利用关键点生成的热力图(G1和G6两种模式热力图合成二维手部掩模)融合到姿态估计中，对最终loss进行校正，提升目标检测的精度；3、本发明方案对手部关键点位置进行估计的同时，对关键点相关结构进行约束，即设置的损失函数中包含对关键点间的结构约束关系，因此，在关键点检测过程中，提升了检测速度并减小了对硬件的要求。

附图说明

图1为本发明手势识别方法的流程图；

图2为本发明手势识别方法网络的整体结构图；

图3为本发明手势识别方法网络多任务学习的示意图；

图4为本发明手势识别方法手部关键点检测分支G1和G6模式结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明。在此需要说明的是，对于这些实施方式的说明用于帮助理解本发明，但并不构成对本发明的限定。此外，下面所描述的本发明各个实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互组合。

一种基于深度学习的手势识别方法，参见图1，包括如下步骤：

S1、步骤1，训练数据集准备；

S2、步骤2，手势识别网络构建，包括，采用resnet34网络作为基础，生成多种尺度的特征图形成特征金字塔，将特征金字塔的高层特征图与低层特征图进行融合，再将融合后的每层特征图分别与卷积核进行卷积操作，输出的特征图进行多任务学习；

参见图2，本实施例中，采用resnet34网络作为基础，生成多种尺度的特征图形成特征金字塔，具体步骤如下：

输入图像的大小HxWxC设置为640x640x3；

本实施例中，上述步骤中采用横向连接方式将特征金字塔的高层特征图与低层特征图进行融合的融合，具体步骤包括：

令特征金字塔FPN表示为Ci＝{C2,C3,C4,C5,C6}，C2、C3、C4、C5以及C6为特征金字塔从下至上每层的特征图，分别对应Resnet网络的conv2、conv3、conv4、conv5以及conv6的输出结果，与原图相比的步长Stride分别取{4，8，16，32，64}；令Ci经过融合后的特征金字塔表示为Pi＝{P2,P3,P4,P5,P6}，则P6对应于C6，P5为C5经过1x1卷积后的输出结果，P4为C4经过1x1卷积后的结果与P5上采样结果叠加的输出，P3为C3经过1x1卷积后的结果与P4上采样结果叠加的输出，P2为C2经过1x1卷积后的结果与P3上采样的结果叠加的输出。

进一步的，融合后的特征金字塔经过一个Context module结构，全部都是用3x3卷积构成的，即融合后的每层特征图分别与3x3的卷积核进行卷积操作，生成分类的头和回归头得到网络的输出，进行多任务学习。

参见图3，所述多任务学习包括3个分支：

手势姿态分类分支，采用softmax作为分类器，对多种单手手势姿态进行分类；手势姿态分类分支的网络卷积层由1x1x1的卷积组成；

手部区域定位分支，用于预测手部中心点的位置以及预测框长和宽；所述手部区域检测分支的网络卷积层由由1x1x1的卷积组成；

手部关键点检测分支，用于输出若干个手部关键点热力图；所述手部关键点检测分支网络的卷积层由1x1x1的卷积组成。

进一步的，本发明实施例的手势识别网络构建还包括损失函数设定，所述手势姿态分类分支的损失函数表示为：

其中，c_i(k)表示第i个候选框是第k种手势姿态的概率；

取值为0或1，当第i个候选框的真实值为第k种手势姿态，

取值为1，反之取值为0；式中，N表示候选框数量，K表示手势姿态的类别数。

进一步的，所述手部区域检测分支的损失函数设定具体如下：

令手部区域第i个真实值矩形框

其中，

表示矩形框中心点坐标，

和

其中，N表示预测候选框的数量；

进一步的，手部关键点检测分支的损失函数具体设定如下:

参见图4，手部关键点数量设定为21个，手部关键点输出结果包括(1)G1和(2)G6两种模式，所述G1模式为21个手部关键点组成手部关键点热力图，形成整个手掌热力图，更注重整体；所述G6模式包括6组热力图，分别为每个手指位置的手部关键点组成的热力图以及手掌位置的手部关键点组成的热力图，更关注局部细节，损失函数表示为：

其中，

其中，

表示第i个手部关键点的真实值与预测值的均方误差；式中，

表示G6模式下，第i个手部关键点的真实值和预测值的交叉熵误差CE Loss(Cross Entropy Loss)；λ₁和λ₂均为常数，均取值0.25。

这里将G分为两种模式G₁和G₆，如图3所示，左图G₁模式将21个关键点组合，形成整个手掌热力图，更注重整体；右图G₆将21个关键点分为6组，5个手指和1个手掌，更关注局部细节，则损失函数公式中G1和G6模式下的交叉熵误差公式如下：

其中G表示分组情况，本实施例同时用到G₁和G₆共有7种结构，即g有7种取值；I表示关键点；

表示点p在两个关键点pi和点pj之间的高斯分布情况。S^*(p|g)＝max(S(p|L₁),S(p|L₂),...,S(p|L_|g|))表示真实值中所有图像点高斯分布概率中的最大值，

表示p点在g结构下的分布情况预测值。

本发明的一种实施例中，将训练数据输入所述手势识别网络进行学习，分别输出各分支的预测结果的步骤，包括：

本发明实施例图像大小选择640x640x3的图像输入到所述手势识别网络每一层的步长Stride分别设为{4，8，16，32，64}；本发明的实施例中，手势种类设置为19+1种单身手势姿态，其中1表示除了19种以为的其他手势动作；本实施例中，手部关键点的数量设置为21个。

步骤4，将各分支的预测结果分别与训练数据集中对应的标签数据(即真实值)进行比对，计算对应分支的损失值；将所述损失值反馈至所述手势识别网络中并对所述手势识别网络参数进行修正。

本发明还提供一种基于深度学习的手势识别设备，包括存储器和处理器；

所述处理器用于根据所述程序数据，执行上述任一项方案所述的深度学习手势识别方法，利用所述训练数据完成手势姿态分类、手部区域定位以及手部关键点检测任务。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。