[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN115147932A - 一种基于深度学习的静态手势识别方法及系统 - Google Patents

一种基于深度学习的静态手势识别方法及系统 Download PDF

Info

Publication number
CN115147932A
CN115147932A CN202210920451.1A CN202210920451A CN115147932A CN 115147932 A CN115147932 A CN 115147932A CN 202210920451 A CN202210920451 A CN 202210920451A CN 115147932 A CN115147932 A CN 115147932A
Authority
CN
China
Prior art keywords
layer
convolutional layer
network
conv2
conv1
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210920451.1A
Other languages
English (en)
Inventor
张伟民
张棣
张泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haribit Intelligent Technology Co ltd
Original Assignee
Beijing Haribit Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Haribit Intelligent Technology Co ltd filed Critical Beijing Haribit Intelligent Technology Co ltd
Priority to CN202210920451.1A priority Critical patent/CN115147932A/zh
Publication of CN115147932A publication Critical patent/CN115147932A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于深度学习的静态手势识别方法及系统,所述识别方法包括如下步骤:将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;将所述目标热图输入所述分类网络进行静态手势的识别。本发明基于深度学习神经网络模型实现了静态手势的识别,并且检测网络和分割网络可以并行执行,相比于级联式神经网络,拥有更小的参数量、更短的实行时间和更高的效率。

Description

一种基于深度学习的静态手势识别方法及系统
技术领域
本发明涉及智能设备技术领域,特别是涉及一种基于深度学习的静态手势识别方法及系统。
背景技术
年龄的增长以及各类疾病造成了老年人行走以及移动能力的不同程度的丧失,许多老年人需要轮椅进行辅助移动。而且对于一些无法行走的残障人士也需要轮椅进行辅助移动。为老年人和残障人士提供性能优越,易于操控的轮椅,能够很大程度提高这两部分群体的行动能力,帮助他们更好融入社会。智能轮椅因其自主性强,交互方式友好,近年来在被广泛推广。
智能轮椅是为老年人和残障人士打造的产品,设计时应当充分考虑用户的特点,交互方式应当尽可能发挥使用者的能动性,规避使用者本身的缺陷,为了达到上述目的,智能轮椅的交互方式普遍具有多样性,基于手势识别的交互就是重要的交互方式之一。对于患有上肢无力或帕金森综合征的老年人,使用操作摇杆操作轮椅相对困难,通过不同手势转化为不同控制信息,可以很好解决上述问题。在过分嘈杂的环境中,语音识别的效果会很差,而在十分安静的环境中,患者不愿打扰其他人,使用手势识别交互,可以很好的适应上述环境。
发明内容
有鉴于此,本发明提供一种基于深度学习的静态手势识别方法及系统,以实现手势识别,进一步的用于基于手势识别交互的智能轮椅控制的研究。
为实现上述目的,本发明提供了如下方案:
一种基于深度学习的静态手势识别方法,所述识别方法基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;
所述识别方法包括如下步骤:
将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;
将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图;
将所述目标热图输入所述分类网络进行静态手势的识别。
可选的,所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4;所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。
可选的,所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块;
所述卷积层Conv1_1的输入端与图像输入端连接;所述卷积层Conv1_1的输出端与所述卷积层Conv1_2的输入端连接,所述卷积层Conv1_2的输出端与第一特征融合模块的一个输入端连接,所述第一特征融合模块的另一个输入端与所述卷积层Conv1_1的输入端连接,所述第一特征融合模块的输出端与所述卷积层Conv1_3的输入端连接,所述卷积层Conv1_3的输出端与所述卷积层Conv1_4的输入端连接,所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端连接,所述第二特征融合模块的另一输入端与所述卷积层Conv1_3的输入端连接,所述第二特征融合模块的输出端与图像输出端连接;
所述卷积层Conv1_1的输出端和所述卷积层Conv1_2的输入端之间,及所述卷积层Conv1_3的输出端和所述卷积层Conv1_4的输入端之间均设置有BN+Relu模块;
所述卷积层Conv1_2的输出端与所述第一特征融合模块的一个输入端之间,及所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端之间均设置有BN模块;
所述第一特征融合模块的输出端与卷积层Conv1_3的输入端之间,及所述第二特征融合模块的输出端与图像输出端之间均设置有Relu模块;
所述残差块Block2、所述残差块Block3和所述残差块Block4均还包括卷积层Conv1_5;
所述卷积层Conv1_5设置在卷积层Conv1_1的输入端与所述第一特征融合模块的另一个输入端之间。
可选的,所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3;
所述反卷积层deConv2_3的输出端还分别连接卷积层Conv2_4_1的输入端、卷积层Conv2_4_2的输入端和卷积层Conv2_4_3的输入端;
所述卷积层Conv2_4_1的输出端连接卷积层Conv2_5_1的输入端,所述卷积层Conv2_4_2的输出端连接卷积层Conv2_5_2的输入端,所述卷积层Conv2_4_3的输出端连接卷积层Conv2_5_3的输入端;所述卷积层Conv2_5_1的输出端用于输出目标的中心点,所述卷积层Conv2_5_2的输出端用于输出中心点的偏移量,所述卷积层Conv2_5_3的输出端用于输出目标的边框尺寸;所述中心点、所述中心点偏移量和所述边框尺寸均为所述预测框的特征;
所述卷积层Conv2_1与所述反卷积层deConv2_1之间、所述反卷积层deConv2_1与所述卷积层Conv2_2之间,所述卷积层Conv2_2与所述反卷积层deConv2_2之间,所述反卷积层deConv2_2与所述卷积层Conv2_3之间,及所述卷积层Conv2_3与所述反卷积层deConv2_3之间均设置有BN+Relu模块;
所述卷积层Conv2_4_1与所述卷积层Conv2_5_1之间,所述卷积层Conv2_4_2与所述卷积层Conv2_5_2之间,所述卷积层Conv2_4_3与所述卷积层Conv2_5_3之间均设置有Relu模块。
可选的,所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4;
所述分割网络还包括分别与自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4连接的卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4,及分别与卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4连接的第二上采样层、第三上采样层、第四上采样层和第五上采样层;
所述分割网络还包括与第一上采样层、第二上采样层、第三上采样层、第四上采样层和第五上采样层连接的卷积层Conv3_2,及卷积层Conv3_2之后依次连接的反卷积层deConv3_1、反卷积层deConv3_2、反卷积层deConv3_3、反卷积层deConv3_4和卷积层Conv3_3;
卷积层Conv3_1_1与第二上采样层之间,卷积层Conv3_1_2与第三上采样层之间,卷积层Conv3_1_3和第四上采样层之间,卷积层Conv3_1_4和第五上采样层之间均设置有Relu模块;
卷积层Conv3_2与反卷积层deConv3_1之间,反卷积层deConv3_1与反卷积层deConv3_2之间,反卷积层deConv3_2与反卷积层deConv3_3之间,反卷积层deConv3_3与反卷积层deConv3_4之间,及反卷积层deConv3_4与卷积层Conv3_3之间均设置有BN+Relu模块。
可选的,所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层;
所述第一基本单元、所述第二基本单元和所述第三基本单元均包括依次连接卷积层Conv1_1和最大池化层Maxpool1_1,及设置在卷积层Conv4_1与最大池化层Maxpool4_1之间的BN+Relu模块;
所述第四基本单元和所述第五基本单元均包括依次连接卷积层Conv4_2、卷积层Conv4_3和最大池化层Maxpool4_2,及设置在卷积层Conv4_2与卷积层Conv4_3之间、卷积层Conv4_3与最大池化层Maxpool4_2之间的BN+Relu模块。
可选的,所述深度学习神经网络模型的训练过程包括如下步骤:
训练第一神经网络子模型,获得训练后的第一神经网络子模型;
训练第二神经网络子模型,获得训练后的第二神经网络子模块;
连接训练后的第一神经网络子模块和训练后的第二神经网络子模块,获得训练后的深度学习神经网络模型。
可选的,用于训练第一神经网络子模型的损失函数为:
Ltotal=Lcoor+LoffsizeLsizesegLseg
其中,Ltotal表示用于训练第一神经网络子模型的损失函数,Lcoor表示中心点坐标损失函数,Loff表示中心点偏移量损失函数、Lsize表示边框尺寸损失函数、Lseg表示语义分割损失函数,λsize和λseg均为修正系数。
可选的,用于训练第二神经网络子模型的损失函数为:
Figure BDA0003777330110000051
其中,Lclass表示用于训练第二神经网络子模型的损失函数,yk为手势的真实标签,
Figure BDA0003777330110000052
为手势的预测结果,k表示第k个样本数据。
一种基于深度学习的静态手势识别系统,所述识别系统基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;
所述识别系统包括:
特征提取模块,用于将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;
目标提取模块,用于将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图;
手势识别模块块,用于将所述目标热图输入所述分类网络进行静态手势的识别。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种基于深度学习的静态手势识别方法及系统,所述识别方法包括如下步骤:将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;将所述目标热图输入所述分类网络进行静态手势的识别。本发明基于深度学习神经网络模型实现了静态手势的识别,并且检测网络和分割网络可以并行执行,相比于级联式神经网络,拥有更小的参数量、更短的实行时间和更高的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术行人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于深度学习的静态手势识别方法的原理图;
图2为本发明实施例提供的主干网络的结构图;
图3为本发明实施例提供的残差块Block1的结构图;
图4为本发明实施例提供的残差块Block2-Block4的结构图;
图5为本发明实施例提供的检测网络的结构图;
图6为本发明实施例提供的分割网络的结构图;
图7为本发明实施例提供的分类网络的结构图;
图8为本发明实施例提供的第一基本单元、第二基本单元和第三基本单元的结构图;
图9为本发明实施例提供的第四基本单元和第五基本单元的结构图;
图10为本发明实施例提供的中心点坐标热图;
图11为本发明实施例提供的预测框包含真值框的示例图;
图12为本发明实施例提供的真值框包含预测框的示例图;
图13为本发明实施例提供的预测框与真值框相交错的示例图;
图14为本发明实施例提供的智能轮椅交互控制方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术行人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于深度学习的静态手势识别方法及系统,以实现手势识别,进一步的用于基于手势识别交互的智能轮椅控制的研究。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
当前针对手势识别的研究依然存在一些问题。基于深度学习的手势识别方法在近年兴起,使用简单的分类网络进行手势识别,对肤色以及背景环境的变化适应性较差。基于颜色阈值分割手部与背景进而进行分类的算法当背景中含有与手部颜色相近的部分时,识别效果较差。基于级联式神经网络的手势识别参数规模很大,且消耗时间较长。综上,当前基于深度学习的手势识别方法,存在易受复杂背景影响,准确度不足,网络参数庞大,效率低等问题。基于上述问题本发明实施例的深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络。通过并行设置的检测网络和分割网络,并行执行手部定位及前景与背景的语义分割,且两个流程通用一个主干网络,相较于级联式神经网络,拥有更小的参数量、更短的实行时间和更高的效率,相较于简单的分类网络,拥有更高的识别精度。
实施例1
如图1所示,本发明实施例1提供一种基于深度学习的静态手势识别方法,所述识别方法基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;如图1所示,本发明手势识别的整体分为两个阶段。第一阶段完成的操作为手部的定位以及手部与背景的语义分割,所采用的网络为本发明提出的并行式神经网络。第二阶段对第一阶段得到的输出进一步处理,完成手势的分类与识别。
所述识别方法包括如下步骤:
步骤101,将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图。
步骤102,将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图。即,得到的特征图分别进入检测网络与分割网络,两个网络并行执行。检测网络得到手部的中心点坐标(x,y)与预测框的两个边长(h,w),分割网络得到的仅含有手部的热图。进行分割网络的目的是排除背景以及肤色对后续分类的影响,而检测网络的目的则是更加精确的定位手部,排除手臂姿态,手部尺度以及手部所处空间位置对后续分类的影响。
步骤103,将所述目标热图输入所述分类网络进行静态手势的识别。
本发明实施例1中的主干网络采用残差神经网络(ResNet)中的残差块(ResBlock)的结构,并增加了其中批标准化层(BN,batch normalization)的数目,从而加速网络的收敛,方便网络的训练。
如图2所示,所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4;所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。
如图3和4所示,所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块;所述卷积层Conv1_1的输入端与图像输入端连接;所述卷积层Conv1_1的输出端与所述卷积层Conv1_2的输入端连接,所述卷积层Conv1_2的输出端与第一特征融合模块的一个输入端连接,所述第一特征融合模块的另一个输入端与所述卷积层Conv1_1的输入端连接,所述第一特征融合模块的输出端与所述卷积层Conv1_3的输入端连接,所述卷积层Conv1_3的输出端与所述卷积层Conv1_4的输入端连接,所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端连接,所述第二特征融合模块的另一输入端与所述卷积层Conv1_3的输入端连接,所述第二特征融合模块的输出端与图像输出端连接;所述卷积层Conv1_1的输出端和所述卷积层Conv1_2的输入端之间,及所述卷积层Conv1_3的输出端和所述卷积层Conv1_4的输入端之间均设置有BN+Relu模块;所述卷积层Conv1_2的输出端与所述第一特征融合模块的一个输入端之间,及所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端之间均设置有BN模块;所述第一特征融合模块的输出端与卷积层Conv1_3的输入端之间,及所述第二特征融合模块的输出端与图像输出端之间均设置有Relu模块;所述残差块Block2、所述残差块Block3和所述残差块Block4均还包括卷积层Conv1_5。所述卷积层Conv1_5设置在卷积层Conv1_1的输入端与所述第一特征融合模块的另一个输入端之间。
图3-4中,Conv表示卷积层,Conv1_0的卷积核大小为7*7,填充为3,步长为2,输入经过Conv1_0之后,通过BN+ReLu模型进行BN与ReLu操作。之后输入最大池化层Maxpool1_1,该层池化核大小为3*3,填充为1,步长为2。进行池化后的数据输入后续的4个ResBlock,得到输出。输入主干网络的图像尺寸为512*512,通道数为3,最终输出的特征尺寸为16*16,通道数为512。
其中,图3为参差块Block1的结构图,图3中,Conv1_1-Conv1_4的卷积核大小均为3*3,步长为1,填充为1。
图4为参差块Block2-Block4的结构图,图4中,Conv1_1的卷积核大小为3*3,填充为1,步长为2;Conv1_2-Conv1_4的卷积核大小为3*3,填充为1,步长为1。Conv1_5的卷积核大小为1*1,填充为0,步长为2。
如5所示,所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3;所述反卷积层deConv2_3的输出端还分别连接卷积层Conv2_4_1的输入端、卷积层Conv2_4_2的输入端和卷积层Conv2_4_3的输入端;所述卷积层Conv2_4_1的输出端连接卷积层Conv2_5_1的输入端,所述卷积层Conv2_4_2的输出端连接卷积层Conv2_5_2的输入端,所述卷积层Conv2_4_3的输出端连接卷积层Conv2_5_3的输入端;所述卷积层Conv2_5_1的输出端用于输出目标的中心点,所述卷积层Conv2_5_2的输出端用于输出中心点的偏移量,所述卷积层Conv2_5_3的输出端用于输出目标的边框尺寸;所述中心点、所述中心点偏移量和所述边框尺寸均为所述预测框的特征;所述卷积层Conv2_1与所述反卷积层deConv2_1之间、所述反卷积层deConv2_1与所述卷积层Conv2_2之间,所述卷积层Conv2_2与所述反卷积层deConv2_2之间,所述反卷积层deConv2_2与所述卷积层Conv2_3之间,及所述卷积层Conv2_3与所述反卷积层deConv2_3之间均设置有BN+Relu模块;所述卷积层Conv2_4_1与所述卷积层Conv2_5_1之间,所述卷积层Conv2_4_2与所述卷积层Conv2_5_2之间,所述卷积层Conv2_4_3与所述卷积层Conv2_5_3之间均设置有Relu模块。
图5中Conv2_1-Conv2_3的卷积核大小均为3*3,填充为1,步长为1。deConv表示反卷积,deConv的卷积核大小均为4*4,内部填充为1,步长为2。每个卷积与反卷积层之后均接有BN+Relu模块。经过三次卷积与反卷积后,得到的中间特征图1尺寸为128*128,通道数为64。
中间特征图1分别进入三个处理流程,三个流程同样并行完成。Conv2_4_1-Conv2_4_3的卷积核大小均为3*3,填充为1,步长为1。Conv2_5_1-Conv2_5-3的卷积核大小均为1*1,填充为1,步长为1。中间特征图1经过三个流程后,得到最终的预测框,从而确定了手部的位置。
如图6所示,所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4;所述分割网络还包括分别与自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4连接的卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4,及分别与卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4连接的第二上采样层、第三上采样层、第四上采样层和第五上采样层;所述分割网络还包括与第一上采样层、第二上采样层、第三上采样层、第四上采样层和第五上采样层连接的卷积层Conv3_2,及卷积层Conv3_2之后依次连接的反卷积层deConv3_1、反卷积层deConv3_2、反卷积层deConv3_3、反卷积层deConv3_4和卷积层Conv3_3;卷积层Conv3_1_1与第二上采样层之间,卷积层Conv3_1_2与第三上采样层之间,卷积层Conv3_1_3和第四上采样层之间,卷积层Conv3_1_4和第五上采样层之间均设置有Relu模块;卷积层Conv3_2与反卷积层deConv3_1之间,反卷积层deConv3_1与反卷积层deConv3_2之间,反卷积层deConv3_2与反卷积层deConv3_3之间,反卷积层deConv3_3与反卷积层deConv3_4之间,及反卷积层deConv3_4与卷积层Conv3_3之间均设置有BN+Relu模块。
主干网络得到的特征图分别经过四个自适应平均池化层(Avgpool1-Avgpool4),经过Avgpool1-Avgpool4得到的特征图通道数均为512,尺寸分别为1*1、2*2、3*3、6*6。
尺寸分别为1*1、2*2、3*3、6*6的特征图分别经过Convv3_1_1-Convv3_1_4。上述四个卷积层的卷积核数目均为1*1,步长为1,填充为0,输入通道数与输出的通道数均为512,其目的是将每个尺度的特征进行融合。
上述四个卷积层得到的结果以及主干网络的特征图分别通过双线性差值法进行上采样,将四个结果全部上采样为32*32,通道数为512的特征图。
上采样后的五个结果进行特征的首位相连,即特征连接,得到尺寸为32*32,通道数为5*512的特征图。
连接后的结果经过Convv3_2得到中间特征图2,该卷积层的卷积核数目为1*1,步长为1,填充为0,输入维度为5*512,输出维度为512。其目的是将不同尺度的特征进行融合,同时压缩特征图的通道数。
特征图2分别经过3个反卷积层(deConvv3_1-deConvv3_4),上述4个反卷积层卷积核数目均为4*4,内部填充为1,步长为2。经过4个反卷积层之后,得到尺寸为512*512,通道数为32的特征图。
上述通道数为32的特征图经过Convv3_3,该层卷积核数目为1*1,步长为1,填充为0,最终输出得到尺寸为512*512,通道数为1的热图,即手部与背景语义分割的结果,该热图为二值化图像,手部的像素值为0,背景部分的像素值为225。语义分割并输出二值化热图的目的是为了排除背景以及手部肤色的干扰。
本发明设置第一神经网络子模型的目的是为了排除不确定的因素,减轻后续分类网络的负担。分类网络可以使用简单轻量的卷积神经网络,且仅使用小规模的数据集对其进行训练,就可以收获很好的效果。
如图7所示,所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层。
图7中的分类网络的执行步骤包括:
将第一神经网络子模型输出的特征图的尺寸调整为224*224;
将调整后的特征图扩充为3通道。将第一通道的数值赋值给另外两个通道。
如图8所示,所述第一基本单元、所述第二基本单元和所述第三基本单元均包括依次连接卷积层Conv1_1和最大池化层Maxpool1_1,及设置在卷积层Conv4_1与最大池化层Maxpool4_1之间的BN+Relu模块。
如图9所示,所述第四基本单元和所述第五基本单元均包括依次连接卷积层Conv4_2、卷积层Conv4_3和最大池化层Maxpool4_2,及设置在卷积层Conv4_2与卷积层Conv4_3之间、卷积层Conv4_3与最大池化层Maxpool4_2之间的BN+Relu模块。
图8和9中,5个基本单元中的每个卷积层的卷积核大小均为3*3,填充为1,步长为1。每个最大池化层的核大小均为2*2,填充为0,步长为2。经过五个基本单元后,得到的特征向量尺寸为7*7*512。数据经过两个全连接层,一个softmax分类层,输出的结果为1*类别数的特征向量,特征向量中值最大的元素所在位置,即为对应的识别结果。
所述深度学习神经网络模型的训练过程包括如下步骤:训练第一神经网络子模型,获得训练后的第一神经网络子模型;训练第二神经网络子模型,获得训练后的第二神经网络子模块;连接训练后的第一神经网络子模块和训练后的第二神经网络子模块,获得训练后的深度学习神经网络模型。
具体流程为:
(1)初始化第一神经网络子模型的权重,主干网络使用ImageNet初始化,检测网络和分割网络使用随机初始化的方法初始化。
(2)使用大规模数据集训练第一神经网络子模型。数据流向为:输入→第一神经网络子模型→输出,此过程中不涉及第二神经网络子模型。
(3)训练完毕后,保存并锁定第一神经网络子模型的权重.
(4)用户的自定义的手势与操作的对应关系,采集用户手势的数据集。
(5)使用随机初始化的方式初始化第二神经网络子模型权重
(6)使用采集到的用户手势数据集训练第二神经网络子模型,数据流向为:输入→第一神经网络子模型→第二神经网络子模型→输出。在此过程中,第一神经网络子模型的权重锁定,不进行更新。
(7)训练完毕后,保存并锁定第二阶段网络权重。
(8)训练好的模型,既可用于用户静态手势的识别。
关于数据集格式说明如下:
手部检测部分的数据集在标注时使用标注框,将其格式转化为训练网络需要的格式,操作如下:
中心点坐标热图:原始的图片为一张宽为W,高为H的3通道RGB图,生成的热图为一张宽为W/4,高为H/4的单通道图。首先将图片尺寸压缩为原来的1/4,若压缩后的图片中某个坐标为物体目标的中心点,即在该坐标处产生一个半径为R的高斯圆,除高斯圆外的其他区域像素值置零。
如图10所示,设原图像中的真值框中心坐标为(x0,y0),则高斯圆的圆心为
Figure BDA0003777330110000141
其中:
Figure BDA0003777330110000142
高斯圆半径与目标真值(groundtruth)的边框有关,确定方法如下:
真值框与预测框的重叠度(IOU,计算方法如下)为0.7时,真值的框与预测框可能出现预测框包含真值框,真值框包含预测框,真值框与预测框交错三种情况,如下图所示。
Figure BDA0003777330110000143
其中Sinter为预测框与真值框相交部分的面积,SGT为真值框的面积,Spre为预测框的面积。
如图11所示,其中实现表示真值框、虚线表示预测框,当预测框包含真值框框时,以真值框的两个角点为圆心画圆与预测框相切,则有:
Figure BDA0003777330110000144
Figure BDA0003777330110000145
其中a=4*Sinter,b=2*Sinter*(h+w),c=(Sinter-1)*(h*w)。
如图12所示,其中实现表示真值框、虚线表示预测框,当真值框包含预测框时,以真值框的两个角点为圆心画圆与预测框相交,则有:
Figure BDA0003777330110000151
Figure BDA0003777330110000152
其中a=4,b=-2(h+w),c=(1-Sinter)*(h*w)。
如图13所示,其中实现表示真值框、虚线表示预测框,当真值框与预测框相交错时,以真值框的两个角点为圆心画圆,一个与预测框相交,一个与预测框相切,则有:
Figure BDA0003777330110000153
Figure BDA0003777330110000154
其中a=1,b=-(h+w),c=(1-Sinter)*h*w/(1+Sinter)。
取r1,r2,r3中的最小值,作为高斯圆的半径r。
高斯圆圆心处的坐标值为1,圆内其他点的像素值取决于该点与高斯圆圆心的距离:
Figure BDA0003777330110000155
其中x,y表示热图中某一点的坐标,Yx,y表示该点的像素值,σ为标准差,与目标边框的尺寸相关,尺寸越大,该值越大。
中心点偏移量:因为像素值的坐标必须为整数,在确定中心点坐标值时使用了向下取整的方式,这样就产生了误差。加入中心点偏移量即可修正该误差,中心点偏移量记作
Figure BDA0003777330110000156
其中
Figure BDA0003777330110000157
真值框的长宽:为方便统一处理数据,将真值框的长宽同样用原有数据的1/4表示,记作:
Figure BDA0003777330110000158
其中
Figure BDA0003777330110000159
语义分割数据集:语义数据集的标注方法如下:手部像素点的值设为1,背景部分设为0。
可选的,用于训练第一神经网络子模型的损失函数为:
Ltotal=Lcoor+LoffsizeLsizesegLseg
其中,Ltotal表示用于训练第一神经网络子模型的损失函数,Lcoor表示中心点坐标损失函数,Loff表示中心点偏移量损失函数、Lsize表示边框尺寸损失函数、Lseg表示语义分割损失函数,λsize和λseg均为修正系数。
中心点坐标损失函数使用focal loss损失函数,具体如下:
Figure BDA0003777330110000161
其中,N为热图中中心点的个数,
Figure BDA0003777330110000162
为热图中(x,y)处像素值的预测值,Yx,y为热图中(x,y)处像素值的真实值。α与β为修正系数,其值根据实际情况而定。使用该损失函数的目的是应对正负样本不平衡,减少对易分类样本的权重,同时容忍一些较小的偏差。
中心点偏移量损失函数使用L1损失计算,具体如下:
Figure BDA0003777330110000163
其中,
Figure BDA0003777330110000164
为中心点偏移量的预测值
边框尺寸损失函数使用L1损失计算,具体如下:
Figure BDA0003777330110000165
其中
Figure BDA0003777330110000166
分别为宽与高的预测值
语义分割损失函数:
语义分割的损失值去取全图像像素的损失值的平均值,像素的损失值使用focalloss计算即:
Figure BDA0003777330110000167
Figure BDA0003777330110000168
其中Lpixel为像素的损失值,p为某个像素点的真值,
Figure BDA0003777330110000171
为预测值,α为修正系数,其值根据实际情况而定。使用focal loss的目的是应对正负样本的不平衡。
可选的,用于训练第二神经网络子模型的损失函数为:
Figure BDA0003777330110000172
其中,Lclass表示用于训练第二神经网络子模型的损失函数,yk为手势的真实标签,
Figure BDA0003777330110000173
为手势的预测结果,k表示第k个样本数据。
实施例2
本发明实施例2提供一种基于深度学习的静态手势识别系统,所述识别系统基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;
所述识别系统包括:
特征提取模块,用于将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;
目标提取模块,用于将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图;
手势识别模块块,用于将所述目标热图输入所述分类网络进行静态手势的识别。
实施例3
本发明实施例3提供一种基于实施例1中的识别方法的智能轮椅交互控制方法,如图14所示,所述交互控制方式包括如下步骤:
RGB相机采集到相关图像作为待识别图像;
对待识别图像进行预处理;
将待识别图像输入实施例1中的深度学习神经网络模型,利用实施例1中的手势识别方法,得到手势识别的结果;
基于手势识别的结果,控制智能轮椅。该控制包括控制驱动电机控制轮椅的前进、后退、左转、右转,切换不同的交互模式,显示不同界面等操作。
其中,预处理的步骤示例性的包括图片的缩放与归一化两个部分,首先将图片缩放为512×512的方形图片。在对图片的每个像素进行归一化处理,式中,input表示输出的图像像素值,input表示输入的图像像素值;mean(input)表示输入图像的像素均值。std表示输入图像像素的标准差。经过标准化,图像像素被调整到[-1,1]区间内。预处理的目的是为了方便后续神经网络的操作。
Figure BDA0003777330110000181
本发明基于深度学习神经网络模型实现了静态手势的识别,并且检测网络和分割网络可以并行执行,相比于级联式神经网络,拥有更小的参数量、更短的实行时间和更高的效率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术行人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于深度学习的静态手势识别方法,其特征在于,所述识别方法基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;
所述识别方法包括如下步骤:
将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;
将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图;
将所述目标热图输入所述分类网络进行静态手势的识别。
2.根据权利要求1所述的基于深度学习的静态手势识别方法,其特征在于,所述主干网络包括依次连接的卷积层Conv1_0、最大池化层Maxpool1-1、残差块Block1、残差块Block2、残差块Block3和残差块Block4;所述卷积层Conv1_0和所述最大池化层Maxpool1-1之间设置有BN+Relu模块。
3.根据权利要求2所述的基于深度学习的静态手势识别方法,其特征在于,所述残差块Block1、所述残差块Block2、所述残差块Block3和所述残差块Block4均包括卷积层Conv1_1、卷积层Conv1_2、第一特征融合模块、卷积层Conv1_3、卷积层Conv1_4和第二特征融合模块;
所述卷积层Conv1_1的输入端与图像输入端连接;所述卷积层Conv1_1的输出端与所述卷积层Conv1_2的输入端连接,所述卷积层Conv1_2的输出端与第一特征融合模块的一个输入端连接,所述第一特征融合模块的另一个输入端与所述卷积层Conv1_1的输入端连接,所述第一特征融合模块的输出端与所述卷积层Conv1_3的输入端连接,所述卷积层Conv1_3的输出端与所述卷积层Conv1_4的输入端连接,所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端连接,所述第二特征融合模块的另一输入端与所述卷积层Conv1_3的输入端连接,所述第二特征融合模块的输出端与图像输出端连接;
所述卷积层Conv1_1的输出端和所述卷积层Conv1_2的输入端之间,及所述卷积层Conv1_3的输出端和所述卷积层Conv1_4的输入端之间均设置有BN+Relu模块;
所述卷积层Conv1_2的输出端与所述第一特征融合模块的一个输入端之间,及所述卷积层Conv1_4的输出端与所述第二特征融合模块的一个输入端之间均设置有BN模块;
所述第一特征融合模块的输出端与卷积层Conv1_3的输入端之间,及所述第二特征融合模块的输出端与图像输出端之间均设置有Relu模块;
所述残差块Block2、所述残差块Block3和所述残差块Block4均还包括卷积层Conv1_5;
所述卷积层Conv1_5设置在卷积层Conv1_1的输入端与所述第一特征融合模块的另一个输入端之间。
4.根据权利要求1所述的基于深度学习的静态手势识别方法,其特征在于,所述检测网络包括依次连接的卷积层Conv2_1、反卷积层deConv2_1、卷积层Conv2_2、反卷积层deConv2_2、卷积层Conv2_3和反卷积层deConv2_3;
所述反卷积层deConv2_3的输出端还分别连接卷积层Conv2_4_1的输入端、卷积层Conv2_4_2的输入端和卷积层Conv2_4_3的输入端;
所述卷积层Conv2_4_1的输出端连接卷积层Conv2_5_1的输入端,所述卷积层Conv2_4_2的输出端连接卷积层Conv2_5_2的输入端,所述卷积层Conv2_4_3的输出端连接卷积层Conv2_5_3的输入端;所述卷积层Conv2_5_1的输出端用于输出目标的中心点,所述卷积层Conv2_5_2的输出端用于输出中心点的偏移量,所述卷积层Conv2_5_3的输出端用于输出目标的边框尺寸;所述中心点、所述中心点偏移量和所述边框尺寸均为所述预测框的特征;
所述卷积层Conv2_1与所述反卷积层deConv2_1之间、所述反卷积层deConv2_1与所述卷积层Conv2_2之间,所述卷积层Conv2_2与所述反卷积层deConv2_2之间,所述反卷积层deConv2_2与所述卷积层Conv2_3之间,及所述卷积层Conv2_3与所述反卷积层deConv2_3之间均设置有BN+Relu模块;
所述卷积层Conv2_4_1与所述卷积层Conv2_5_1之间,所述卷积层Conv2_4_2与所述卷积层Conv2_5_2之间,所述卷积层Conv2_4_3与所述卷积层Conv2_5_3之间均设置有Relu模块。
5.根据权利要求1所述的基于深度学习的静态手势识别方法,其特征在于,所述分割网络包括与主干网络的输出端连接的第一上采样层、自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4;
所述分割网络还包括分别与自适应平均池化层Avgpool1、自适应平均池化层Avgpool2、自适应平均池化层Avgpool3和自适应平均池化层Avgpool4连接的卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4,及分别与卷积层Conv3_1_1、卷积层Conv3_1_2、卷积层Conv3_1_3和卷积层Conv3_1_4连接的第二上采样层、第三上采样层、第四上采样层和第五上采样层;
所述分割网络还包括与第一上采样层、第二上采样层、第三上采样层、第四上采样层和第五上采样层连接的卷积层Conv3_2,及卷积层Conv3_2之后依次连接的反卷积层deConv3_1、反卷积层deConv3_2、反卷积层deConv3_3、反卷积层deConv3_4和卷积层Conv3_3;
卷积层Conv3_1_1与第二上采样层之间,卷积层Conv3_1_2与第三上采样层之间,卷积层Conv3_1_3和第四上采样层之间,卷积层Conv3_1_4和第五上采样层之间均设置有Relu模块;
卷积层Conv3_2与反卷积层deConv3_1之间,反卷积层deConv3_1与反卷积层deConv3_2之间,反卷积层deConv3_2与反卷积层deConv3_3之间,反卷积层deConv3_3与反卷积层deConv3_4之间,及反卷积层deConv3_4与卷积层Conv3_3之间均设置有BN+Relu模块。
6.根据权利要求1所述的基于深度学习的静态手势识别方法,其特征在于,所述分类网络包括依次连接的第一基本单元、第二基本单元、第三基本单元、第四基本单元、第五基本单元、第一全连接层、第二全连接层和softmax分类层;
所述第一基本单元、所述第二基本单元和所述第三基本单元均包括依次连接卷积层Conv1_1和最大池化层Maxpool1_1,及设置在卷积层Conv4_1与最大池化层Maxpool4_1之间的BN+Relu模块;
所述第四基本单元和所述第五基本单元均包括依次连接卷积层Conv4_2、卷积层Conv4_3和最大池化层Maxpool4_2,及设置在卷积层Conv4_2与卷积层Conv4_3之间、卷积层Conv4_3与最大池化层Maxpool4_2之间的BN+Relu模块。
7.根据权利要求1所述的基于深度学习的静态手势识别方法,其特征在于,所述深度学习神经网络模型的训练过程包括如下步骤:
训练第一神经网络子模型,获得训练后的第一神经网络子模型;
训练第二神经网络子模型,获得训练后的第二神经网络子模块;
连接训练后的第一神经网络子模块和训练后的第二神经网络子模块,获得训练后的深度学习神经网络模型。
8.根据权利要求7所述的基于深度学习的静态手势识别方法,其特征在于,用于训练第一神经网络子模型的损失函数为:
Ltotal=Lcoor+LoffsizeLsizesegLseg
其中,Ltotal表示用于训练第一神经网络子模型的损失函数,Lcoor表示中心点坐标损失函数,Loff表示中心点偏移量损失函数、Lsize表示边框尺寸损失函数、Lseg表示语义分割损失函数,λsize和λseg均为修正系数。
9.根据权利要求7所述的基于深度学习的静态手势识别方法,其特征在于,用于训练第二神经网络子模型的损失函数为:
Figure FDA0003777330100000041
其中,Lclass表示用于训练第二神经网络子模型的损失函数,yk为手势的真实标签,
Figure FDA0003777330100000051
为手势的预测结果,k表示第k个样本数据。
10.一种基于深度学习的静态手势识别系统,其特征在于,所述识别系统基于训练后的深度学习神经网络模型,所述深度学习神经网络模型包括第一神经网络子模型和第二神经网络子模型,所述第一神经网络子模型包括主干网络、及与所述主干网络连接且并行设置的检测网络和分割网络,所述第二神经网络子模型包括分类网络;
所述识别系统包括:
特征提取模块,用于将带有静态手势的待识别图像输入所述主干网络进行特征提取,获得所述待识别图像的特征图;
目标提取模块,用于将所述特征图分别输入所述检测网络和所述分割网络,利用所述检测网络对所述特征图进行目标检测,获得预测框,利用所述分割网络对所述特征图进行前景分割,获得前景热图,并利用所述预测框对所述前景热图进行裁剪,获得目标热图;所述目标为用于表征静态手势的手部区域,所述目标热图为手部区域的热图;
手势识别模块块,用于将所述目标热图输入所述分类网络进行静态手势的识别。
CN202210920451.1A 2022-08-02 2022-08-02 一种基于深度学习的静态手势识别方法及系统 Pending CN115147932A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210920451.1A CN115147932A (zh) 2022-08-02 2022-08-02 一种基于深度学习的静态手势识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210920451.1A CN115147932A (zh) 2022-08-02 2022-08-02 一种基于深度学习的静态手势识别方法及系统

Publications (1)

Publication Number Publication Date
CN115147932A true CN115147932A (zh) 2022-10-04

Family

ID=83414270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210920451.1A Pending CN115147932A (zh) 2022-08-02 2022-08-02 一种基于深度学习的静态手势识别方法及系统

Country Status (1)

Country Link
CN (1) CN115147932A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524293A (zh) * 2023-04-10 2023-08-01 哈尔滨市科佳通用机电股份有限公司 基于深度学习的闸调器拉杆头丢失故障图像识别方法及系统
WO2024125156A1 (zh) * 2022-12-14 2024-06-20 华为技术有限公司 特征提取单元、特征提取方法及相关设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024125156A1 (zh) * 2022-12-14 2024-06-20 华为技术有限公司 特征提取单元、特征提取方法及相关设备
CN116524293A (zh) * 2023-04-10 2023-08-01 哈尔滨市科佳通用机电股份有限公司 基于深度学习的闸调器拉杆头丢失故障图像识别方法及系统
CN116524293B (zh) * 2023-04-10 2024-01-30 哈尔滨市科佳通用机电股份有限公司 基于深度学习的闸调器拉杆头丢失故障识别方法及系统

Similar Documents

Publication Publication Date Title
CN108491835B (zh) 面向面部表情识别的双通道卷积神经网络
CN109993160B (zh) 一种图像矫正及文本与位置识别方法及系统
WO2020108362A1 (zh) 人体姿态检测方法、装置、设备及存储介质
CN107229904B (zh) 一种基于深度学习的目标检测与识别方法
CN108280397B (zh) 基于深度卷积神经网络的人体图像头发检测方法
CN110399840B (zh) 一种快速的草坪语义分割及边界检测方法
WO2019080203A1 (zh) 一种机器人的手势识别方法、系统及机器人
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN109446922B (zh) 一种实时鲁棒的人脸检测方法
CN105956560A (zh) 一种基于池化多尺度深度卷积特征的车型识别方法
CN111797841B (zh) 一种基于深度残差网络的视觉显著性检测方法
CN115147932A (zh) 一种基于深度学习的静态手势识别方法及系统
CN111583279A (zh) 一种基于pcba的超像素图像分割方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN110046544A (zh) 基于卷积神经网络的数字手势识别方法
CN116863223A (zh) 语义注意力特征嵌入Swin Transformer网络的遥感图像场景分类的方法
CN112926552B (zh) 基于深度神经网络的遥感影像车辆目标识别模型及方法
CN111881743A (zh) 一种基于语义分割的人脸特征点定位方法
CN109784297A (zh) 一种基于深度学习的三维目标识别与最优抓取方法
CN112966672B (zh) 一种复杂背景下的手势识别方法
CN118314606B (zh) 一种基于全局-局部特征的行人检测方法
CN111695450A (zh) 一种基于IMobileNet的人脸快速识别方法
CN117292363A (zh) 一种危险驾驶动作的识别方法
CN113223006B (zh) 一种基于深度学习的轻量级目标语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination