CN110532863B

CN110532863B - 手势操作方法、装置以及计算机设备

Info

Publication number: CN110532863B
Application number: CN201910655568.XA
Authority: CN
Inventors: 李珊珊; 盛思思
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2024-09-06
Anticipated expiration: 2039-07-19
Also published as: CN110532863A; WO2021012513A1

Abstract

本发明公开了一种手势操作方法，该方法包括：将手势视频中的视频区段中的帧图像进行手指图像识别并提取手指图像轮廓，然后获取所述手指图像轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值，然后用来判断是否触发手势轨迹，当判断出触发了手势轨迹时，识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。本发明还提供一种手势操作装置、计算机设备以及计算机可读存储介质。本发明提供的手势操作方法、装置、计算机设备及计算机可读存储介质能够达到更准确、更精确地对视频图像中的手指图像的手势轨迹识别。

Description

手势操作方法、装置以及计算机设备

技术领域

本发明涉及手势识别技术领域，尤其涉及一种手势操作方法、装置、计算机设备及计算机可读存储介质。

背景技术

现有的计算机或者终端设备在使用过程中，一般通过用户的键盘输入以及鼠标的点击、拖拽等动作实现对计算机的操作，键盘输入可以有输入指令或使用快捷键等，鼠标的点击或拖拽可以实现指定操作。但随着计算机技术的发展和用户需求的多样化，用户越发想要脱离与鼠标、键盘等外设设备直接接触，因此，急迫需要一种不依赖鼠标、键盘等外设设备也能够达到对计算机或者终端设备进行控制的操作方法。

鉴于以上问题，现有技术中提出了利用手势识别技术获取用户的手势轨迹，然后根据手势轨迹调用对应的控制指令对计算机或者终端设备进行控制的操作方法。然而，现有的大部分的手势操作方法都是基于二维平面识别，而现有的摄像单元拍摄的视频图像并不是二维图像，运动轨迹也并非只有二维属性。因此，现有即使中的手势操作方法用于对视频图像识别和分析并不太准确。

发明内容

有鉴于此，本发明提出一种用户手势操作方法、装置、计算机设备及计算机可读存储介质，能够将手势视频中的视频区段中的帧图像进行手指图像识别并提取轮廓，然后获取所述轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值用来判断是否触发手势轨迹，当判断出触发了手势轨迹，则识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。因此，有效提高了对视频图像中的手指图像进行识别的精度和准确度。

首先，为实现上述目的，本发明提供一种手势操作方法，该方法应用于计算机设备，所述方法包括：

获取手势视频，将所述手势视频划分为预设帧数的视频区段；根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像；提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值；依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值；当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像；根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹；根据所述手势轨迹调用对应的操作指令并执行。

可选地，所述手指图像轮廓的面积特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点数量。

可选地，所述手指图像轮廓的形状特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点的分布值。

可选地，所述“根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值”的步骤包括：分别获取所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量；计算出所述起始帧的手指图像轮廓包括的像素点数量和所述结束帧的手指图像轮廓包括的像素点数量的像素点数量差值，然后将所述像素点数量差值除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述起始帧和所述结束帧的手指图像轮廓的面积变化值。

可选地，所述“根据所述起始帧和所述结束帧的手指图像轮廓的形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的形状变化值”的步骤包括：根据相同的分块模式将所述起始帧和所述结束帧分别划分为M*N个分块；分别统计所述起始帧和所述结束帧的手指图像轮廓在每个分块所占的分块像素点数量；计算出所述起始帧手指图像轮廓的每一个分块的分块像素点数量与所述结束帧的手指图像轮廓对应位置的分块的分块像素点数量差值，然后将所述起始帧和所述结束帧的手指图像轮廓的所有分块的像素点数量差值叠加得到差值总和，再将所述差值总和除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述两帧图像的所述手指图像轮廓的面积变化值。

可选地，所述“识别出所述起始帧和所述结束帧的手指图像中的指头部分图像”的步骤包括：根据预设的关键点检测器建模识别出将所述起始帧的手指图像中的指头部分图像并标记为噪声标签，根据所述噪声标签对预设的关键点检测器建模进行训练以形成关键点检查器；利用所述关键点检测器识别出结束帧中对应的手指图像的指头部分图像。

可选地，所述绘制出所述起始帧到所述结束帧的手势轨迹主要是根据所述起始帧的手指图像中的指头部分图像所占的位置信息与所述结束帧的手指图像中的指头部分图像所占的位置信息绘制成矢量，然后根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。

此外，为实现上述目的，本发明还提供一种手势操作装置，所述装置包括：

获取模块，用于获取手势视频，将所述手势视频划分为预设帧数的视频区段；识别模块，用于根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像；所述获取模块，还用于提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值；计算模块，用于依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值；所述识别模块，还用于当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像；绘制模块，用于根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹；执行模块，用于根据所述手势轨迹调用对应的操作指令并执行。

进一步地，本发明还提出一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的手势操作方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的手势操作方法的步骤。

相较于现有技术，本发明所提出的手势操作方法、装置、计算机设备及计算机可读存储介质，能够将手势视频中的视频区段中的帧图像进行手指图像识别并提取轮廓，然后获取所述轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值用来判断是否触发手势轨迹，当判断出触发了手势轨迹，则识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。因此，有效提高了对视频图像中的手指图像进行识别的精度和准确度。

附图说明

图1是本发明计算机设备一可选的硬件架构的示意图；

图2是本发明手势操作装置一实施例的程序模块示意图；

图3是本发明手势操作方法一实施例的流程示意图。

附图标记：

计算机设备	1
		存储器	11
处理器	12
		网络接口	13
手势操作装置	200
		获取模块	201
识别模块	202
		计算模块	203
绘制模块	204
		执行模块	205

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参阅图1所示，是本发明计算机设备1一可选的硬件架构的示意图。

本实施例中，所述计算机设备1可包括，但不仅限于，可通过系统总线相互通信连接存储器11、处理器12、网络接口13。

所述计算机设备1通过网络接口13连接网络(图1未标出)，通过网络连接到其他计算机设备如PC端，移动终端等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi、通话网络等无线或有线网络。

需要指出的是，图1仅示出了具有组件11-13的计算机设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述计算机设备1的内部存储单元，例如该计算机设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述计算机设备1的外部存储设备，例如该计算机设备1配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器11还可以既包括所述计算机设备1的内部存储单元也包括其外部存储设备。本实施例中，所述存储器11通常用于存储安装于所述计算机设备1的操作系统和各类应用软件，例如手势操作装置200的程序代码等。此外，所述存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器12在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述计算机设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行所述的手势操作装置200等。

所述网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在所述计算机设备1与其他计算机设备如PC端，移动终端等之间建立通信连接。

本实施例中，所述计算机设备1内安装并运行有手势操作装置200时，当所述手势操作装置200运行时，能够将手势视频中的视频区段中的帧图像进行手指图像识别并提取轮廓，然后获取所述轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值用来判断是否触发手势轨迹，当判断出触发了手势轨迹，则识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。因此，有效提高了对视频图像中的手指图像进行识别的精度和准确度。

至此，己经详细介绍了本发明各个实施例的应用环境和相关设备的硬件结构和功能。下面，将基于上述应用环境和相关设备，提出本发明的各个实施例。

首先，本发明提出一种手势操作装置200。

参阅图2所示，是本发明手势操作装置200一实施例的程序模块图。

本实施例中，所述手势操作装置200包括一系列的存储于存储器11上的计算机程序指令，当该计算机程序指令被处理器12执行时，可以实现本发明各实施例的手势操作操作。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，手势操作装置200可以被划分为一个或多个模块。例如，在图2中，所述手势操作装置200可以被分割成获取模块201、识别模块202、计算模块203、绘制模块204和执行模块205。其中：

所述获取模块201，用于获取手势视频，将所述手势视频划分为预设帧数的视频区段。

具体地，当用户在计算机设备1上进行手势操作时，所述计算机设备1调用摄像单元进行头拍摄预设窗口范围内的手势视频，其中，所述计算机设备1包括PC端，移动终端等。因此，所述获取模块201可以获取到手势视频，然后还会进行分段处理。例如，所述摄像单元拍摄视频的帧率不低于24帧/秒，但由于用户进行手势操作的动作也不会太快，因此，预设每个视频区段包括的手势图像帧数为8帧。

所述识别模块202，用于根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像。

具体地，在本实施例中，手势图像是摄像单元对着预设窗口位置拍摄的图像，因此，不仅仅只包括手指部分，还包括手掌或者其他背景。因此，所述识别模块202在所述获取模块201获取到手势图像并划分为视频区段之后，能够根据预设的手指图像识别模型依次将划分好的所述视频区段中的每一帧图像中的手指图像识别出来。在本实施例中，所述手指图像识别模型为基于神经网络的深度学习模型，然后通过对大量的手指图像进行训练而成的手指图像识别模型，能够对手指部分进行很好的识别，其中利用神经网络的深度学习模型进行图像识别为现有常用技术手段，这里不做赘述。

所述获取模块201，还用于提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值。

具体地，在所述识别模型202将所述视频区段内的每一帧图像识别出其中的手指图像之后，所述获取模块201则会进一步提取所述每一帧图像中的手指轮廓。在本实施例中，所述获取模块201基于边缘的方法提取出所述每一帧图像的手指图像轮廓。当然，在其他实施例中，也可以使用基于区域或者基于活动轮廓的方法进行轮廓提取。所述获取模块201在提取出所述每一帧图像中的手指图像轮廓之后，依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值。在本实施例中，所述手指图像轮廓的面积特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点数量；所述手指图像轮廓的形状特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点的分布值，例如，将所述手势视频图像进行分块，然后所述手势图像轮廓在每一个分块中所占有的像素点数量值即可表示所述形状特征值。

所述计算模块203，用于依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值。

具体地，依顺序取出，这里可以理解为在所述视频区段内，取出排序在前的一帧，然后再取出排序在后的一帧，中间间隔有1至6帧。例如起始帧为第1帧，结束帧为分别第2帧依次到第8帧；接着后续第2帧至第7帧依次作为起始帧，后续帧为结束帧。在本实施例中，所述计算模块203根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值的步骤包括：分别获取所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量；计算出所述起始帧的手指图像轮廓包括的像素点数量和所述结束帧的手指图像轮廓包括的像素点数量的像素点数量差值，然后将所述像素点数量差值除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述起始帧和所述结束帧的手指图像轮廓的面积变化值。例如：起始帧的手指图像轮廓包括的像素点数量为100，即面积特征值为100，结束帧的手指图像轮廓包括的像素点数量为125，即面积特征值为125，那么起始帧和结束帧的手指图像轮廓的面积变化值为(125-100)/125＝20％。

所述计算模块203根据所述起始帧和所述结束帧的手指图像轮廓的形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的形状变化值的步骤包括：根据相同的分块模式将所述起始帧和所述结束帧分别划分为M*N个分块；分别统计所述起始帧和所述结束帧的手指图像轮廓在每个分块所占的分块像素点数量；计算出所述起始帧手指图像轮廓的每一个分块的分块像素点数量与所述结束帧的手指图像轮廓对应位置的分块的分块像素点数量差值，然后将所述起始帧和所述结束帧的手指图像轮廓的所有分块的像素点数量差值叠加得到差值总和，再将所述差值总和除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述两帧图像的所述手指图像轮廓的面积变化值。例如：所述计算模块203将视频区段内的每一帧图像划分为M*N个分块，M*N为3*2，那么分别获取每一帧图像的手指图像轮廓在6个分块中所占的像素点数量，例如起始帧和结束帧的手指图像轮廓的像素点在第3-6分块中的像素点数量相同且3-6分块中的像素点数量分别为5、6、4、5，但是起始帧在第1分块中有5个像素点、第2分块中4个像素点，而结束帧在第1分块中有1个像素点、第2分块中9个像素点，即起始帧的形状特征值为(5，4，5，6，4，5)，结束帧的形状特征值为(1，9，5，6，4，5)。因此，起始帧和结束帧的第1分块像素点差异5-1＝4，第2分块像素点差异的9-4＝5，差异像素点数量为4+5＝9，起始帧像素点总和为20+5+4＝29，结束帧像素点总和为20+1+9＝30，像素点分布差异为9/30＝30％，即形状变化值为30％。

所述识别模块202，还用于当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像。

具体地，由于用户的手指进行手势控制时必然会产生一定的位置变化，因此，所述手势操作装置200通过判断所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值，从而判断用户是否产生了有效的手势操作。

因此，在本实施例中，在所述计算模块203计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值以及形状变化值之后，所述识别模块202则进一步将所述起始帧和所述结束帧的手指图像轮廓的面积变化值以及形状变化值分别与预算的第一阈值和第二阈值进行比较，当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，则分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像。例如，预设的第一阈值为15％，第二阈值为20％，然后所述计算模块203计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值为20％，大于第一阈值15％，所述起始帧和所述结束帧的手指图像轮廓的形状变化值为30％大于第二阈值20％，因此，所述识别模块202继续识别所述所述起始帧和所述结束帧的手指图像中的指头部分图像。

在本实施例中，所述识别模块202根据预设的关键点检测器建模识别出将所述起始帧的手指图像中的指头部分图像并标记为噪声标签，根据所述噪声标签对预设的关键点检测器建模进行训练以形成关键点检查器；然后再利用所述关键点检测器识别出结束帧中对应的手指图像的指头部分图像。其中，所述关键点检测器建模可以是具有基于神经网络的深度学习能力的手指指头部分图像的识别模型，能够根据识别出的手指指头部分图像数据对自身识别模型进行训练优化，再根据优化后的识别模型继续识别图像。也就是说，所述识别模块202能够利用关键点检测器建模识别所述视频区段内的每一帧图像，然后优化所述关键点检测器，接着继续进行识别和优化。从而提高关键点检测器识别出手指图像中指头部分图像的精确度。而基于神经网络的图像识别以及模型训练技术为本领域较为常用的公知技术，这里不作赘述。

所述绘制模块204，用于根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹。

具体地，所述绘制模块204绘制出所述起始帧到所述结束帧的手势轨迹主要是根据所述起始帧的手指图像中的指头部分图像所占的位置信息与所述结束帧的手指图像中的指头部分图像所占的位置信息绘制成矢量，然后根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。在本实施例中，所述绘制模块204将起始帧的指头部分图像的异常值的位置信息指向结束帧的指头部分图像的异常值的位置信息，从而描绘制出矢量，例如，将图像预设为一个二维坐标面，然后根据所述起始帧和所述结束帧的手指图像中的指头部分图像的异常值的坐标信息能够绘制出一个矢量，然后再根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。例如，预设矢量方向东南方向0-45度内为右滑动手势轨迹，矢量方向东南方向45-90度内为下滑动手势轨迹，当矢量为东南方向30度，则判断为右滑动手势轨迹。

所述执行模块205，用于根据所述手势轨迹调用对应的操作指令并执行。

具体地，当所述绘制模块204绘制出所述起始帧到所述结束帧的手势轨迹之后，那么所述视频区段就不再继续判断其他帧了，因为预设视频区段时考虑了用户的手势轨迹的执行时间，所述绘制模块204绘制出的手势轨迹代表了所述视频区段的用户操作。因此，所述执行模块205则会根据所述手势轨迹以及预设的手势轨迹跟操作指令对应表直接调用对应的操作指令并执行。

从上文可知，所述计算机设备1能够将手势视频中的视频区段中的帧图像进行手指图像识别并提取轮廓，然后获取所述轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值用来判断是否触发手势轨迹，当判断出触发了手势轨迹，则识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。因此，有效提高了对视频图像中的手指图像进行识别的精度和准确度。

此外，本发明还提出一种手势操作方法，所述方法应用于计算机设备。

参阅图3所示，是本发明手势操作方法一实施例的流程示意图。在本实施例中，根据不同的需求，图3所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S500，获取手势视频，将所述手势视频划分为预设帧数的视频区段。

具体地，当用户在计算机设备1上进行手势操作时，所述计算机设备1调用摄像单元进行头拍摄预设窗口范围内的手势视频，其中，所述计算机设备1包括PC端，移动终端等。因此，所述计算机设备1可以获取到手势视频，然后还会进行分段处理。例如，所述摄像单元拍摄视频的帧率不低于24帧/秒，但由于用户进行手势操作的动作也不会太快，因此，预设每个视频区段包括的手势图像帧数为8帧。

步骤S502，根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像。

具体地，在本实施例中，手势图像是摄像单元对着预设窗口位置拍摄的图像，因此，不仅仅只包括手指部分，还包括手掌或者其他背景。因此，所述计算机设备1在获取到手势图像并划分为视频区段之后，能够根据预设的手指图像识别模型依次将划分好的所述视频区段中的每一帧图像中的手指图像识别出来。在本实施例中，所述手指图像识别模型为基于神经网络的深度学习模型，然后通过对大量的手指图像进行训练而成的手指图像识别模型，能够对手指部分进行很好的识别，其中利用神经网络的深度学习模型进行图像识别为现有常用技术手段，这里不做赘述。

步骤S504，提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值。

具体地，所述计算机设备1在将所述视频区段内的每一帧图像识别出其中的手指图像之后，还会进一步提取所述每一帧图像中的手指轮廓。在本实施例中，所述计算机设备1基于边缘的方法提取出所述每一帧图像的手指图像轮廓。当然，在其他实施例中，也可以使用基于区域或者基于活动轮廓的方法进行轮廓提取。所述计算机设备1在提取出所述每一帧图像中的手指图像轮廓之后，依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值。在本实施例中，所述手指图像轮廓的面积特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点数量；所述手指图像轮廓的形状特征值表现为所述手指图像手指图像轮廓在所述手势视频图像中所占的像素点的分布值，例如，将所述手势视频图像进行分块，然后所述手势图像轮廓在每一个分块中所占有的像素点数量值即可表示所述形状特征值。

步骤S506，依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值。

具体地，依顺序取出，这里可以理解为在所述视频区段内，取出排序在前的一帧，然后再取出排序在后的一帧，中间间隔有1至6帧。例如起始帧为第1帧，结束帧为分别第2帧依次到第8帧；接着后续第2帧至第7帧依次作为起始帧，后续帧为结束帧。在本实施例中，所述计算机设备1根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值的步骤包括：分别获取所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量；计算出所述起始帧的手指图像轮廓包括的像素点数量和所述结束帧的手指图像轮廓包括的像素点数量的像素点数量差值，然后将所述像素点数量差值除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述起始帧和所述结束帧的手指图像轮廓的面积变化值。例如：起始帧的手指图像轮廓包括的像素点数量为100，即面积特征值为100，结束帧的手指图像轮廓包括的像素点数量为125，即面积特征值为125，那么起始帧和结束帧的手指图像轮廓的面积变化值为(125-100)/125＝20％。

所述计算机设备1根据所述起始帧和所述结束帧的手指图像轮廓的形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的形状变化值的步骤包括：根据相同的分块模式将所述起始帧和所述结束帧分别划分为M*N个分块；分别统计所述起始帧和所述结束帧的手指图像轮廓在每个分块所占的分块像素点数量；计算出所述起始帧手指图像轮廓的每一个分块的分块像素点数量与所述结束帧的手指图像轮廓对应位置的分块的分块像素点数量差值，然后将所述起始帧和所述结束帧的手指图像轮廓的所有分块的像素点数量差值叠加得到差值总和，再将所述差值总和除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述两帧图像的所述手指图像轮廓的面积变化值。例如：所述计算机设备1将视频区段内的每一帧图像划分为M*N个分块，M*N为3*2，那么分别获取每一帧图像的手指图像轮廓在6个分块中所占的像素点数量，例如起始帧和结束帧的手指图像轮廓的像素点在第3-6分块中的像素点数量相同且3-6分块中的像素点数量分别为5、6、4、5，但是起始帧在第1分块中有5个像素点、第2分块中4个像素点，而结束帧在第1分块中有1个像素点、第2分块中9个像素点，即起始帧的形状特征值为(5，4，5，6，4，5)，结束帧的形状特征值为(1，9，5，6，4，5)。因此，起始帧和结束帧的第1分块像素点差异5-1＝4，第2分块像素点差异的9-4＝5，差异像素点数量为4+5＝9，起始帧像素点总和为20+5+4＝29，结束帧像素点总和为20+1+9＝30，像素点分布差异为9/30＝30％，即形状变化值为30％。

步骤S508，当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像。

具体地，由于用户的手指进行手势控制时必然会产生一定的位置变化，因此，所述计算机设备1通过判断所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值，从而判断用户是否产生了有效的手势操作。

因此，在本实施例中，所述计算机设备1在计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值以及形状变化值之后，还会进一步将所述起始帧和所述结束帧的手指图像轮廓的面积变化值以及形状变化值分别与预算的第一阈值和第二阈值进行比较，当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，则分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像。例如，预设的第一阈值为15％，第二阈值为20％，然后所述计算机设备1计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值为20％，大于第一阈值15％，所述起始帧和所述结束帧的手指图像轮廓的形状变化值为30％大于第二阈值20％，因此，所述计算机设备1继续识别所述所述起始帧和所述结束帧的手指图像中的指头部分图像。

在本实施例中，所述计算机设备1根据预设的关键点检测器建模识别出将所述起始帧的手指图像中的指头部分图像并标记为噪声标签，根据所述噪声标签对预设的关键点检测器建模进行训练以形成关键点检查器；然后再利用所述关键点检测器识别出结束帧中对应的手指图像的指头部分图像。其中，所述关键点检测器建模可以是具有基于神经网络的深度学习能力的手指指头部分图像的识别模型，能够根据识别出的手指指头部分图像数据对自身识别模型进行训练优化，再根据优化后的识别模型继续识别图像。也就是说，所述计算机设备1能够利用关键点检测器建模识别所述视频区段内的每一帧图像，然后优化所述关键点检测器，接着继续进行识别和优化。从而提高关键点检测器识别出手指图像中指头部分图像的精确度。而基于神经网络的图像识别以及模型训练技术为本领域较为常用的公知技术，这里不作赘述。

步骤S510，根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹。

具体地，所述计算机设备1绘制出所述起始帧到所述结束帧的手势轨迹主要是根据所述起始帧的手指图像中的指头部分图像所占的位置信息与所述结束帧的手指图像中的指头部分图像所占的位置信息绘制成矢量，然后根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。在本实施例中，所述计算机设备1将起始帧的指头部分图像的异常值的位置信息指向结束帧的指头部分图像的异常值的位置信息，从而描绘制出矢量，例如，将图像预设为一个二维坐标面，然后根据所述起始帧和所述结束帧的手指图像中的指头部分图像的异常值的坐标信息能够绘制出一个矢量，然后再根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。例如，预设矢量方向东南方向0-45度内为右滑动手势轨迹，矢量方向东南方向45-90度内为下滑动手势轨迹，当矢量为东南方向30度，则判断为右滑动手势轨迹。

步骤S512，根据所述手势轨迹调用对应的操作指令并执行。

具体地，当所述计算机设备1绘制出所述起始帧到所述结束帧的手势轨迹之后，那么所述视频区段就不再继续判断其他帧了，因为预设视频区段时考虑了用户的手势轨迹的执行时间，所述计算机设备1绘制出的手势轨迹代表了所述视频区段的用户操作。因此，所述计算机设备1则会根据所述手势轨迹以及预设的手势轨迹跟操作指令对应表直接调用对应的操作指令并执行。

本实施例所提出的手势操作方法能够将手势视频中的视频区段中的帧图像进行手指图像识别并提取轮廓，然后获取所述轮廓的面积特征值和形状特征值以计算出所述两帧图像的手指图像轮廓的面积变化值和形状变化值用来判断是否触发手势轨迹，当判断出触发了手势轨迹，则识别出所述两帧图像的手指图像中的指头部分图像并绘制手势轨迹，最后调用所述手势轨迹对应的操作指令并执行。因此，有效提高了对视频图像中的手指图像进行识别的精度和准确度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种手势操作方法，应用于计算机设备，其特征在于，所述方法包括步骤：

获取手势视频，将所述手势视频划分为预设帧数的视频区段；

根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像；

提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值；

依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值；

当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像；

根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹；

根据所述手势轨迹调用对应的操作指令并执行；

其中，所述手指图像轮廓的面积特征值表现为所述手指图像轮廓在所述手势视频图像中所占的像素点数量；

其中，所述“根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值”的步骤包括：

分别获取所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量；

计算出所述起始帧的手指图像轮廓包括的像素点数量和所述结束帧的手指图像轮廓包括的像素点数量的像素点数量差值，然后将所述像素点数量差值除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述起始帧和所述结束帧的手指图像轮廓的面积变化值；

根据相同的分块模式将所述起始帧和所述结束帧分别划分为M*N个分块；

分别统计所述起始帧和所述结束帧的手指图像轮廓在每个分块所占的分块像素点数量；

计算出所述起始帧手指图像轮廓的每一个分块的分块像素点数量与所述结束帧的手指图像轮廓对应位置的分块的分块像素点数量差值，然后将所述起始帧和所述结束帧的手指图像轮廓的所有分块的像素点数量差值叠加得到差值总和，再将所述差值总和除以所述起始帧和所述结束帧的手指图像轮廓包括的像素点数量最多的像素点数值从而获得所述两帧图像的所述手指图像轮廓的面积变化值。

2.如权利要求1所述的手势操作方法，其特征在于，所述手指图像轮廓的形状特征值表现为所述手指图像轮廓在所述手势视频图像中所占的像素点的分布值。

3.如权利要求1所述的手势操作方法，其特征在于，所述“根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像”的步骤包括：

根据预设的关键点检测器建模识别出将所述起始帧的手指图像中的指头部分图像并标记为噪声标签，根据所述噪声标签对预设的关键点检测器建模进行训练以形成关键点检测器；

利用所述关键点检测器识别出结束帧中对应的手指图像的指头部分图像。

4.如权利要求1所述的手势操作方法，其特征在于，所述绘制出所述起始帧到所述结束帧的手势轨迹是根据所述起始帧的手指图像中的指头部分图像所占的位置信息与所述结束帧的手指图像中的指头部分图像所占的位置信息绘制成矢量，然后根据预设的矢量-手势轨迹对应表查找出相应的手势轨迹。

5.一种手势操作装置，其特征在于，所述装置包括：

获取模块，用于获取手势视频，将所述手势视频划分为预设帧数的视频区段；

识别模块，用于根据预设的手指图像识别模型识别出所述视频区段中的每一帧图像中的手指图像；

所述获取模块，还用于提取所述每一帧图像中的手指图像轮廓，并依次获取所述每一帧图像的手指图像轮廓的面积特征值和形状特征值；

计算模块，用于依顺序从所述视频区段内取出两帧图像作为起始帧和结束帧，根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值；

所述识别模块，还用于当所述起始帧和所述结束帧的手指图像轮廓的面积变化值超过预设的第一阈值或者形状变化值超过预设的第二阈值时，分别识别出所述起始帧和所述结束帧的手指图像中的指头部分图像；

绘制模块，用于根据所述起始帧和所述结束帧的指头部分图像在所述图像范围内的位置信息，绘制出所述起始帧到所述结束帧的手势轨迹；

执行模块，用于根据所述手势轨迹调用对应的操作指令并执行；

其中，所述“根据所述起始帧和所述结束帧的手指图像轮廓的面积特征值和形状特征值计算出所述起始帧和所述结束帧的手指图像轮廓的面积变化值和形状变化值”包括：

6.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-4任一项所述的手势操作方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-4中任一项所述的手势操作方法的步骤。