CN115147932A

CN115147932A - 一种基于深度学习的静态手势识别方法及系统

Info

Publication number: CN115147932A
Application number: CN202210920451.1A
Authority: CN
Inventors: 张伟民; 张棣; 张泽宇
Original assignee: Beijing Haribit Intelligent Technology Co ltd
Current assignee: Beijing Haribit Intelligent Technology Co ltd
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-10-04

Abstract

本发明涉及一种基于深度学习的静态手势识别方法及系统，所述识别方法包括如下步骤：将带有静态手势的待识别图像输入所述主干网络进行特征提取，获得所述待识别图像的特征图；将所述特征图分别输入所述检测网络和所述分割网络，利用所述检测网络对所述特征图进行目标检测，获得预测框，利用所述分割网络对所述特征图进行前景分割，获得前景热图，并利用所述预测框对所述前景热图进行裁剪，获得目标热图；将所述目标热图输入所述分类网络进行静态手势的识别。本发明基于深度学习神经网络模型实现了静态手势的识别，并且检测网络和分割网络可以并行执行，相比于级联式神经网络，拥有更小的参数量、更短的实行时间和更高的效率。

Description

一种基于深度学习的静态手势识别方法及系统

技术领域

本发明涉及智能设备技术领域，特别是涉及一种基于深度学习的静态手势识别方法及系统。

背景技术

年龄的增长以及各类疾病造成了老年人行走以及移动能力的不同程度的丧失，许多老年人需要轮椅进行辅助移动。而且对于一些无法行走的残障人士也需要轮椅进行辅助移动。为老年人和残障人士提供性能优越，易于操控的轮椅，能够很大程度提高这两部分群体的行动能力，帮助他们更好融入社会。智能轮椅因其自主性强，交互方式友好，近年来在被广泛推广。

智能轮椅是为老年人和残障人士打造的产品，设计时应当充分考虑用户的特点，交互方式应当尽可能发挥使用者的能动性，规避使用者本身的缺陷，为了达到上述目的，智能轮椅的交互方式普遍具有多样性，基于手势识别的交互就是重要的交互方式之一。对于患有上肢无力或帕金森综合征的老年人，使用操作摇杆操作轮椅相对困难，通过不同手势转化为不同控制信息，可以很好解决上述问题。在过分嘈杂的环境中，语音识别的效果会很差，而在十分安静的环境中，患者不愿打扰其他人，使用手势识别交互，可以很好的适应上述环境。

发明内容

有鉴于此，本发明提供一种基于深度学习的静态手势识别方法及系统，以实现手势识别，进一步的用于基于手势识别交互的智能轮椅控制的研究。

为实现上述目的，本发明提供了如下方案：

一种基于深度学习的静态手势识别方法，所述识别方法基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；

所述识别方法包括如下步骤：

将带有静态手势的待识别图像输入所述主干网络进行特征提取，获得所述待识别图像的特征图；

将所述特征图分别输入所述检测网络和所述分割网络，利用所述检测网络对所述特征图进行目标检测，获得预测框，利用所述分割网络对所述特征图进行前景分割，获得前景热图，并利用所述预测框对所述前景热图进行裁剪，获得目标热图；所述目标为用于表征静态手势的手部区域，所述目标热图为手部区域的热图；

将所述目标热图输入所述分类网络进行静态手势的识别。

可选的，所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4；所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。

可选的，所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块；

所述卷积层Conv1_1的输入端与图像输入端连接；所述卷积层Conv1_1的输出端与所述卷积层Conv1_2的输入端连接，所述卷积层Conv1_2的输出端与第一特征融合模块的一个输入端连接，所述第一特征融合模块的另一个输入端与所述卷积层Conv1_1的输入端连接，所述第一特征融合模块的输出端与所述卷积层Conv1_3的输入端连接，所述卷积层Conv1_3的输出端与所述卷积层Conv1_4的输入端连接，所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端连接，所述第二特征融合模块的另一输入端与所述卷积层Conv1_3的输入端连接，所述第二特征融合模块的输出端与图像输出端连接；

所述卷积层Conv1_1的输出端和所述卷积层Conv1_2的输入端之间，及所述卷积层Conv1_3的输出端和所述卷积层Conv1_4的输入端之间均设置有BN+Relu模块；

所述卷积层Conv1_2的输出端与所述第一特征融合模块的一个输入端之间，及所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端之间均设置有BN模块；

所述第一特征融合模块的输出端与卷积层Conv1_3的输入端之间，及所述第二特征融合模块的输出端与图像输出端之间均设置有Relu模块；

所述残差块Block2、所述残差块Block3和所述残差块Block4均还包括卷积层Conv1_5；

所述卷积层Conv1_5设置在卷积层Conv1_1的输入端与所述第一特征融合模块的另一个输入端之间。

可选的，所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3；

所述反卷积层deConv2_3的输出端还分别连接卷积层Conv2_4_1的输入端、卷积层Conv2_4_2的输入端和卷积层Conv2_4_3的输入端；

所述卷积层Conv2_4_1的输出端连接卷积层Conv2_5_1的输入端，所述卷积层Conv2_4_2的输出端连接卷积层Conv2_5_2的输入端，所述卷积层Conv2_4_3的输出端连接卷积层Conv2_5_3的输入端；所述卷积层Conv2_5_1的输出端用于输出目标的中心点，所述卷积层Conv2_5_2的输出端用于输出中心点的偏移量，所述卷积层Conv2_5_3的输出端用于输出目标的边框尺寸；所述中心点、所述中心点偏移量和所述边框尺寸均为所述预测框的特征；

所述卷积层Conv2_1与所述反卷积层deConv2_1之间、所述反卷积层deConv2_1与所述卷积层Conv2_2之间，所述卷积层Conv2_2与所述反卷积层deConv2_2之间，所述反卷积层deConv2_2与所述卷积层Conv2_3之间，及所述卷积层Conv2_3与所述反卷积层deConv2_3之间均设置有BN+Relu模块；

所述卷积层Conv2_4_1与所述卷积层Conv2_5_1之间，所述卷积层Conv2_4_2与所述卷积层Conv2_5_2之间，所述卷积层Conv2_4_3与所述卷积层Conv2_5_3之间均设置有Relu模块。

可选的，所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4；

所述分割网络还包括分别与自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4连接的卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4，及分别与卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4连接的第二上采样层、第三上采样层、第四上采样层和第五上采样层；

所述分割网络还包括与第一上采样层、第二上采样层、第三上采样层、第四上采样层和第五上采样层连接的卷积层Conv3_2，及卷积层Conv3_2之后依次连接的反卷积层deConv3_1、反卷积层deConv3_2、反卷积层deConv3_3、反卷积层deConv3_4和卷积层Conv3_3；

卷积层Conv3_1_1与第二上采样层之间，卷积层Conv3_1_2与第三上采样层之间，卷积层Conv3_1_3和第四上采样层之间，卷积层Conv3_1_4和第五上采样层之间均设置有Relu模块；

卷积层Conv3_2与反卷积层deConv3_1之间，反卷积层deConv3_1与反卷积层deConv3_2之间，反卷积层deConv3_2与反卷积层deConv3_3之间，反卷积层deConv3_3与反卷积层deConv3_4之间，及反卷积层deConv3_4与卷积层Conv3_3之间均设置有BN+Relu模块。

可选的，所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层；

所述第一基本单元、所述第二基本单元和所述第三基本单元均包括依次连接卷积层Conv1_1和最大池化层Maxpool1_1，及设置在卷积层Conv4_1与最大池化层Maxpool4_1之间的BN+Relu模块；

所述第四基本单元和所述第五基本单元均包括依次连接卷积层Conv4_2、卷积层Conv4_3和最大池化层Maxpool4_2，及设置在卷积层Conv4_2与卷积层Conv4_3之间、卷积层Conv4_3与最大池化层Maxpool4_2之间的BN+Relu模块。

可选的，所述深度学习神经网络模型的训练过程包括如下步骤：

训练第一神经网络子模型，获得训练后的第一神经网络子模型；

训练第二神经网络子模型，获得训练后的第二神经网络子模块；

连接训练后的第一神经网络子模块和训练后的第二神经网络子模块，获得训练后的深度学习神经网络模型。

可选的，用于训练第一神经网络子模型的损失函数为：

L_total＝L_coor+L_off+λ_sizeL_size+λ_segL_seg；

其中，L_total表示用于训练第一神经网络子模型的损失函数，L_coor表示中心点坐标损失函数，L_off表示中心点偏移量损失函数、L_size表示边框尺寸损失函数、L_seg表示语义分割损失函数，λ_size和λ_seg均为修正系数。

可选的，用于训练第二神经网络子模型的损失函数为：

其中，L_class表示用于训练第二神经网络子模型的损失函数，y_k为手势的真实标签，

为手势的预测结果，k表示第k个样本数据。

一种基于深度学习的静态手势识别系统，所述识别系统基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；

所述识别系统包括：

特征提取模块，用于将带有静态手势的待识别图像输入所述主干网络进行特征提取，获得所述待识别图像的特征图；

目标提取模块，用于将所述特征图分别输入所述检测网络和所述分割网络，利用所述检测网络对所述特征图进行目标检测，获得预测框，利用所述分割网络对所述特征图进行前景分割，获得前景热图，并利用所述预测框对所述前景热图进行裁剪，获得目标热图；所述目标为用于表征静态手势的手部区域，所述目标热图为手部区域的热图；

手势识别模块块，用于将所述目标热图输入所述分类网络进行静态手势的识别。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开一种基于深度学习的静态手势识别方法及系统，所述识别方法包括如下步骤：将带有静态手势的待识别图像输入所述主干网络进行特征提取，获得所述待识别图像的特征图；将所述特征图分别输入所述检测网络和所述分割网络，利用所述检测网络对所述特征图进行目标检测，获得预测框，利用所述分割网络对所述特征图进行前景分割，获得前景热图，并利用所述预测框对所述前景热图进行裁剪，获得目标热图；将所述目标热图输入所述分类网络进行静态手势的识别。本发明基于深度学习神经网络模型实现了静态手势的识别，并且检测网络和分割网络可以并行执行，相比于级联式神经网络，拥有更小的参数量、更短的实行时间和更高的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术行人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于深度学习的静态手势识别方法的原理图；

图2为本发明实施例提供的主干网络的结构图；

图3为本发明实施例提供的残差块Block1的结构图；

图4为本发明实施例提供的残差块Block2-Block4的结构图；

图5为本发明实施例提供的检测网络的结构图；

图6为本发明实施例提供的分割网络的结构图；

图7为本发明实施例提供的分类网络的结构图；

图8为本发明实施例提供的第一基本单元、第二基本单元和第三基本单元的结构图；

图9为本发明实施例提供的第四基本单元和第五基本单元的结构图；

图10为本发明实施例提供的中心点坐标热图；

图11为本发明实施例提供的预测框包含真值框的示例图；

图12为本发明实施例提供的真值框包含预测框的示例图；

图13为本发明实施例提供的预测框与真值框相交错的示例图；

图14为本发明实施例提供的智能轮椅交互控制方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术行人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于深度学习的静态手势识别方法及系统，以实现手势识别，进一步的用于基于手势识别交互的智能轮椅控制的研究。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

当前针对手势识别的研究依然存在一些问题。基于深度学习的手势识别方法在近年兴起，使用简单的分类网络进行手势识别，对肤色以及背景环境的变化适应性较差。基于颜色阈值分割手部与背景进而进行分类的算法当背景中含有与手部颜色相近的部分时，识别效果较差。基于级联式神经网络的手势识别参数规模很大，且消耗时间较长。综上，当前基于深度学习的手势识别方法，存在易受复杂背景影响，准确度不足，网络参数庞大，效率低等问题。基于上述问题本发明实施例的深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络。通过并行设置的检测网络和分割网络，并行执行手部定位及前景与背景的语义分割，且两个流程通用一个主干网络，相较于级联式神经网络，拥有更小的参数量、更短的实行时间和更高的效率，相较于简单的分类网络，拥有更高的识别精度。

实施例1

如图1所示，本发明实施例1提供一种基于深度学习的静态手势识别方法，所述识别方法基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；如图1所示，本发明手势识别的整体分为两个阶段。第一阶段完成的操作为手部的定位以及手部与背景的语义分割，所采用的网络为本发明提出的并行式神经网络。第二阶段对第一阶段得到的输出进一步处理，完成手势的分类与识别。

所述识别方法包括如下步骤：

步骤101，将带有静态手势的待识别图像输入所述主干网络进行特征提取，获得所述待识别图像的特征图。

步骤102，将所述特征图分别输入所述检测网络和所述分割网络，利用所述检测网络对所述特征图进行目标检测，获得预测框，利用所述分割网络对所述特征图进行前景分割，获得前景热图，并利用所述预测框对所述前景热图进行裁剪，获得目标热图；所述目标为用于表征静态手势的手部区域，所述目标热图为手部区域的热图。即，得到的特征图分别进入检测网络与分割网络，两个网络并行执行。检测网络得到手部的中心点坐标(x,y)与预测框的两个边长(h，w)，分割网络得到的仅含有手部的热图。进行分割网络的目的是排除背景以及肤色对后续分类的影响，而检测网络的目的则是更加精确的定位手部，排除手臂姿态，手部尺度以及手部所处空间位置对后续分类的影响。

步骤103，将所述目标热图输入所述分类网络进行静态手势的识别。

本发明实施例1中的主干网络采用残差神经网络(ResNet)中的残差块(ResBlock)的结构，并增加了其中批标准化层(BN，batch normalization)的数目，从而加速网络的收敛，方便网络的训练。

如图2所示，所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4；所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。

如图3和4所示，所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块；所述卷积层Conv1_1的输入端与图像输入端连接；所述卷积层Conv1_1的输出端与所述卷积层Conv1_2的输入端连接，所述卷积层Conv1_2的输出端与第一特征融合模块的一个输入端连接，所述第一特征融合模块的另一个输入端与所述卷积层Conv1_1的输入端连接，所述第一特征融合模块的输出端与所述卷积层Conv1_3的输入端连接，所述卷积层Conv1_3的输出端与所述卷积层Conv1_4的输入端连接，所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端连接，所述第二特征融合模块的另一输入端与所述卷积层Conv1_3的输入端连接，所述第二特征融合模块的输出端与图像输出端连接；所述卷积层Conv1_1的输出端和所述卷积层Conv1_2的输入端之间，及所述卷积层Conv1_3的输出端和所述卷积层Conv1_4的输入端之间均设置有BN+Relu模块；所述卷积层Conv1_2的输出端与所述第一特征融合模块的一个输入端之间，及所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端之间均设置有BN模块；所述第一特征融合模块的输出端与卷积层Conv1_3的输入端之间，及所述第二特征融合模块的输出端与图像输出端之间均设置有Relu模块；所述残差块Block2、所述残差块Block3和所述残差块Block4均还包括卷积层Conv1_5。所述卷积层Conv1_5设置在卷积层Conv1_1的输入端与所述第一特征融合模块的另一个输入端之间。

图3-4中，Conv表示卷积层，Conv1_0的卷积核大小为7*7，填充为3，步长为2，输入经过Conv1_0之后，通过BN+ReLu模型进行BN与ReLu操作。之后输入最大池化层Maxpool1_1，该层池化核大小为3*3，填充为1，步长为2。进行池化后的数据输入后续的4个ResBlock，得到输出。输入主干网络的图像尺寸为512*512，通道数为3，最终输出的特征尺寸为16*16，通道数为512。

其中，图3为参差块Block1的结构图，图3中，Conv1_1-Conv1_4的卷积核大小均为3*3，步长为1，填充为1。

图4为参差块Block2-Block4的结构图，图4中，Conv1_1的卷积核大小为3*3，填充为1，步长为2；Conv1_2-Conv1_4的卷积核大小为3*3，填充为1，步长为1。Conv1_5的卷积核大小为1*1，填充为0，步长为2。

如5所示，所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3；所述反卷积层deConv2_3的输出端还分别连接卷积层Conv2_4_1的输入端、卷积层Conv2_4_2的输入端和卷积层Conv2_4_3的输入端；所述卷积层Conv2_4_1的输出端连接卷积层Conv2_5_1的输入端，所述卷积层Conv2_4_2的输出端连接卷积层Conv2_5_2的输入端，所述卷积层Conv2_4_3的输出端连接卷积层Conv2_5_3的输入端；所述卷积层Conv2_5_1的输出端用于输出目标的中心点，所述卷积层Conv2_5_2的输出端用于输出中心点的偏移量，所述卷积层Conv2_5_3的输出端用于输出目标的边框尺寸；所述中心点、所述中心点偏移量和所述边框尺寸均为所述预测框的特征；所述卷积层Conv2_1与所述反卷积层deConv2_1之间、所述反卷积层deConv2_1与所述卷积层Conv2_2之间，所述卷积层Conv2_2与所述反卷积层deConv2_2之间，所述反卷积层deConv2_2与所述卷积层Conv2_3之间，及所述卷积层Conv2_3与所述反卷积层deConv2_3之间均设置有BN+Relu模块；所述卷积层Conv2_4_1与所述卷积层Conv2_5_1之间，所述卷积层Conv2_4_2与所述卷积层Conv2_5_2之间，所述卷积层Conv2_4_3与所述卷积层Conv2_5_3之间均设置有Relu模块。

图5中Conv2_1-Conv2_3的卷积核大小均为3*3，填充为1，步长为1。deConv表示反卷积，deConv的卷积核大小均为4*4，内部填充为1，步长为2。每个卷积与反卷积层之后均接有BN+Relu模块。经过三次卷积与反卷积后，得到的中间特征图1尺寸为128*128，通道数为64。

中间特征图1分别进入三个处理流程，三个流程同样并行完成。Conv2_4_1-Conv2_4_3的卷积核大小均为3*3，填充为1，步长为1。Conv2_5_1-Conv2_5-3的卷积核大小均为1*1，填充为1，步长为1。中间特征图1经过三个流程后，得到最终的预测框，从而确定了手部的位置。

如图6所示，所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4；所述分割网络还包括分别与自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4连接的卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4，及分别与卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4连接的第二上采样层、第三上采样层、第四上采样层和第五上采样层；所述分割网络还包括与第一上采样层、第二上采样层、第三上采样层、第四上采样层和第五上采样层连接的卷积层Conv3_2，及卷积层Conv3_2之后依次连接的反卷积层deConv3_1、反卷积层deConv3_2、反卷积层deConv3_3、反卷积层deConv3_4和卷积层Conv3_3；卷积层Conv3_1_1与第二上采样层之间，卷积层Conv3_1_2与第三上采样层之间，卷积层Conv3_1_3和第四上采样层之间，卷积层Conv3_1_4和第五上采样层之间均设置有Relu模块；卷积层Conv3_2与反卷积层deConv3_1之间，反卷积层deConv3_1与反卷积层deConv3_2之间，反卷积层deConv3_2与反卷积层deConv3_3之间，反卷积层deConv3_3与反卷积层deConv3_4之间，及反卷积层deConv3_4与卷积层Conv3_3之间均设置有BN+Relu模块。

主干网络得到的特征图分别经过四个自适应平均池化层(Avgpool1-Avgpool4)，经过Avgpool1-Avgpool4得到的特征图通道数均为512，尺寸分别为1*1、2*2、3*3、6*6。

尺寸分别为1*1、2*2、3*3、6*6的特征图分别经过Convv3_1_1-Convv3_1_4。上述四个卷积层的卷积核数目均为1*1，步长为1，填充为0，输入通道数与输出的通道数均为512，其目的是将每个尺度的特征进行融合。

上述四个卷积层得到的结果以及主干网络的特征图分别通过双线性差值法进行上采样，将四个结果全部上采样为32*32，通道数为512的特征图。

上采样后的五个结果进行特征的首位相连，即特征连接，得到尺寸为32*32，通道数为5*512的特征图。

连接后的结果经过Convv3_2得到中间特征图2，该卷积层的卷积核数目为1*1，步长为1，填充为0，输入维度为5*512，输出维度为512。其目的是将不同尺度的特征进行融合，同时压缩特征图的通道数。

特征图2分别经过3个反卷积层(deConvv3_1-deConvv3_4)，上述4个反卷积层卷积核数目均为4*4，内部填充为1，步长为2。经过4个反卷积层之后，得到尺寸为512*512，通道数为32的特征图。

上述通道数为32的特征图经过Convv3_3，该层卷积核数目为1*1，步长为1，填充为0，最终输出得到尺寸为512*512，通道数为1的热图，即手部与背景语义分割的结果，该热图为二值化图像，手部的像素值为0，背景部分的像素值为225。语义分割并输出二值化热图的目的是为了排除背景以及手部肤色的干扰。

本发明设置第一神经网络子模型的目的是为了排除不确定的因素，减轻后续分类网络的负担。分类网络可以使用简单轻量的卷积神经网络，且仅使用小规模的数据集对其进行训练，就可以收获很好的效果。

如图7所示，所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层。

图7中的分类网络的执行步骤包括：

将第一神经网络子模型输出的特征图的尺寸调整为224*224；

将调整后的特征图扩充为3通道。将第一通道的数值赋值给另外两个通道。

如图8所示，所述第一基本单元、所述第二基本单元和所述第三基本单元均包括依次连接卷积层Conv1_1和最大池化层Maxpool1_1，及设置在卷积层Conv4_1与最大池化层Maxpool4_1之间的BN+Relu模块。

如图9所示，所述第四基本单元和所述第五基本单元均包括依次连接卷积层Conv4_2、卷积层Conv4_3和最大池化层Maxpool4_2，及设置在卷积层Conv4_2与卷积层Conv4_3之间、卷积层Conv4_3与最大池化层Maxpool4_2之间的BN+Relu模块。

图8和9中，5个基本单元中的每个卷积层的卷积核大小均为3*3，填充为1，步长为1。每个最大池化层的核大小均为2*2，填充为0，步长为2。经过五个基本单元后，得到的特征向量尺寸为7*7*512。数据经过两个全连接层，一个softmax分类层，输出的结果为1*类别数的特征向量，特征向量中值最大的元素所在位置，即为对应的识别结果。

所述深度学习神经网络模型的训练过程包括如下步骤：训练第一神经网络子模型，获得训练后的第一神经网络子模型；训练第二神经网络子模型，获得训练后的第二神经网络子模块；连接训练后的第一神经网络子模块和训练后的第二神经网络子模块，获得训练后的深度学习神经网络模型。

具体流程为：

(1)初始化第一神经网络子模型的权重，主干网络使用ImageNet初始化，检测网络和分割网络使用随机初始化的方法初始化。

(2)使用大规模数据集训练第一神经网络子模型。数据流向为：输入→第一神经网络子模型→输出，此过程中不涉及第二神经网络子模型。

(3)训练完毕后，保存并锁定第一神经网络子模型的权重.

(4)用户的自定义的手势与操作的对应关系，采集用户手势的数据集。

(5)使用随机初始化的方式初始化第二神经网络子模型权重

(6)使用采集到的用户手势数据集训练第二神经网络子模型，数据流向为：输入→第一神经网络子模型→第二神经网络子模型→输出。在此过程中，第一神经网络子模型的权重锁定，不进行更新。

(7)训练完毕后，保存并锁定第二阶段网络权重。

(8)训练好的模型，既可用于用户静态手势的识别。

关于数据集格式说明如下：

手部检测部分的数据集在标注时使用标注框，将其格式转化为训练网络需要的格式，操作如下：

中心点坐标热图：原始的图片为一张宽为W，高为H的3通道RGB图，生成的热图为一张宽为W/4，高为H/4的单通道图。首先将图片尺寸压缩为原来的1/4，若压缩后的图片中某个坐标为物体目标的中心点，即在该坐标处产生一个半径为R的高斯圆，除高斯圆外的其他区域像素值置零。

如图10所示，设原图像中的真值框中心坐标为(x0,y0)，则高斯圆的圆心为

其中：

高斯圆半径与目标真值(groundtruth)的边框有关，确定方法如下：

真值框与预测框的重叠度(IOU，计算方法如下)为0.7时，真值的框与预测框可能出现预测框包含真值框，真值框包含预测框，真值框与预测框交错三种情况，如下图所示。

其中Sinter为预测框与真值框相交部分的面积，SGT为真值框的面积，Spre为预测框的面积。

如图11所示，其中实现表示真值框、虚线表示预测框，当预测框包含真值框框时，以真值框的两个角点为圆心画圆与预测框相切，则有：

其中a＝4*Sinter，b＝2*Sinter*(h+w)，c＝(Sinter-1)*(h*w)。

如图12所示，其中实现表示真值框、虚线表示预测框，当真值框包含预测框时，以真值框的两个角点为圆心画圆与预测框相交，则有：

其中a＝4，b＝-2(h+w)，c＝(1-Sinter)*(h*w)。

如图13所示，其中实现表示真值框、虚线表示预测框，当真值框与预测框相交错时，以真值框的两个角点为圆心画圆，一个与预测框相交，一个与预测框相切，则有：

其中a＝1，b＝-(h+w)，c＝(1-Sinter)*h*w/(1+Sinter)。

取r1，r2，r3中的最小值，作为高斯圆的半径r。

高斯圆圆心处的坐标值为1，圆内其他点的像素值取决于该点与高斯圆圆心的距离：

其中x,y表示热图中某一点的坐标，Yx,y表示该点的像素值，σ为标准差，与目标边框的尺寸相关，尺寸越大，该值越大。

中心点偏移量：因为像素值的坐标必须为整数，在确定中心点坐标值时使用了向下取整的方式，这样就产生了误差。加入中心点偏移量即可修正该误差，中心点偏移量记作

其中

真值框的长宽：为方便统一处理数据，将真值框的长宽同样用原有数据的1/4表示，记作：

其中

语义分割数据集：语义数据集的标注方法如下：手部像素点的值设为1，背景部分设为0。

可选的，用于训练第一神经网络子模型的损失函数为：

L_total＝L_coor+L_off+λ_sizeL_size+λ_segL_seg；

其中，L_total表示用于训练第一神经网络子模型的损失函数，L_coor表示中心点坐标损失函数，L_off表示中心点偏移量损失函数、L_size表示边框尺寸损失函数、Lseg表示语义分割损失函数，λsize和λseg均为修正系数。

中心点坐标损失函数使用focal loss损失函数，具体如下：

其中，N为热图中中心点的个数，

为热图中(x,y)处像素值的预测值，Yx,y为热图中(x,y)处像素值的真实值。α与β为修正系数，其值根据实际情况而定。使用该损失函数的目的是应对正负样本不平衡，减少对易分类样本的权重，同时容忍一些较小的偏差。

中心点偏移量损失函数使用L1损失计算，具体如下：

其中，

为中心点偏移量的预测值

边框尺寸损失函数使用L1损失计算，具体如下：

其中

分别为宽与高的预测值

语义分割损失函数：

语义分割的损失值去取全图像像素的损失值的平均值，像素的损失值使用focalloss计算即：

其中Lpixel为像素的损失值，p为某个像素点的真值，

为预测值，α为修正系数，其值根据实际情况而定。使用focal loss的目的是应对正负样本的不平衡。

可选的，用于训练第二神经网络子模型的损失函数为：

为手势的预测结果，k表示第k个样本数据。

实施例2

本发明实施例2提供一种基于深度学习的静态手势识别系统，所述识别系统基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；

所述识别系统包括：

实施例3

本发明实施例3提供一种基于实施例1中的识别方法的智能轮椅交互控制方法，如图14所示，所述交互控制方式包括如下步骤：

RGB相机采集到相关图像作为待识别图像；

对待识别图像进行预处理；

将待识别图像输入实施例1中的深度学习神经网络模型，利用实施例1中的手势识别方法，得到手势识别的结果；

基于手势识别的结果，控制智能轮椅。该控制包括控制驱动电机控制轮椅的前进、后退、左转、右转，切换不同的交互模式，显示不同界面等操作。

其中，预处理的步骤示例性的包括图片的缩放与归一化两个部分，首先将图片缩放为512×512的方形图片。在对图片的每个像素进行归一化处理，式中，input表示输出的图像像素值，input表示输入的图像像素值；mean(input)表示输入图像的像素均值。std表示输入图像像素的标准差。经过标准化，图像像素被调整到[-1,1]区间内。预处理的目的是为了方便后续神经网络的操作。

本发明基于深度学习神经网络模型实现了静态手势的识别，并且检测网络和分割网络可以并行执行，相比于级联式神经网络，拥有更小的参数量、更短的实行时间和更高的效率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术行人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于深度学习的静态手势识别方法，其特征在于，所述识别方法基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；

所述识别方法包括如下步骤：

将所述目标热图输入所述分类网络进行静态手势的识别。

2.根据权利要求1所述的基于深度学习的静态手势识别方法，其特征在于，所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4；所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。

3.根据权利要求2所述的基于深度学习的静态手势识别方法，其特征在于，所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块；

4.根据权利要求1所述的基于深度学习的静态手势识别方法，其特征在于，所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3；

5.根据权利要求1所述的基于深度学习的静态手势识别方法，其特征在于，所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4；

6.根据权利要求1所述的基于深度学习的静态手势识别方法，其特征在于，所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层；

7.根据权利要求1所述的基于深度学习的静态手势识别方法，其特征在于，所述深度学习神经网络模型的训练过程包括如下步骤：

8.根据权利要求7所述的基于深度学习的静态手势识别方法，其特征在于，用于训练第一神经网络子模型的损失函数为：

L_total＝L_coor+L_off+λ_sizeL_size+λ_segL_seg；

9.根据权利要求7所述的基于深度学习的静态手势识别方法，其特征在于，用于训练第二神经网络子模型的损失函数为：

为手势的预测结果，k表示第k个样本数据。

10.一种基于深度学习的静态手势识别系统，其特征在于，所述识别系统基于训练后的深度学习神经网络模型，所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型，所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络，所述第二神经网络子模型包括分类网络；

所述识别系统包括：