CN113961067A

CN113961067A - 基于深度学习的非接触式涂鸦绘制方法与识别交互系统

Info

Publication number: CN113961067A
Application number: CN202111140448.XA
Authority: CN
Inventors: 唐志强; 李观喜; 赵亁; 林伟
Original assignee: Guangdong Xinwangpai Intelligent Information Technology Co ltd
Current assignee: Guangdong Xinwangpai Intelligent Information Technology Co ltd
Priority date: 2021-09-28
Filing date: 2021-09-28
Publication date: 2022-01-21
Anticipated expiration: 2041-09-28
Also published as: CN113961067B

Abstract

本发明公开了一种隔空涂鸦识别交互控制系统，所述隔空涂鸦识别交互控制系统包括：相互连接的手势识别装置、主控处理器和涂鸦识别交互系统；其中手势识别装置用于对采集的图片进行手势检测、跟踪以及识别并将对应的结果发送至主控处理器，包括：图片提取模块、手部检测模块、手部跟踪模块、手部姿态识别模块以及涂鸦图片生成模块。主控处理器根据接收到的手势识别结果以及涂鸦图片生成控制指令并发送至涂鸦识别交互系统，涂鸦交互系统通过具体的指令内容以及对涂鸦图片的识别完成与用户的交互控制。本发明利用基于深度学习的手部检测、手部跟踪以及手势姿态估计算法代替鼠标和触摸屏的技术方案实现非接触式的交互体验。

Description

基于深度学习的非接触式涂鸦绘制方法与识别交互系统

技术领域

本发明涉及图像分析及控制技术领域，尤其涉及一种基于深度学习的非接触式涂鸦绘制方法与识别交互系统。

背景技术

随着人机交互技术的快速发展，各种基于人机交互技术衍生出来的创新型场景应用层出不穷。作为人机交互的典型创新应用，涂鸦识别是指利用算法对用户绘制的涂鸦图片进行识别，判断出用户绘制的图片内容类别。

当前市面上的涂鸦识别主要是利用鼠标或者可触摸屏等硬件进行轨迹绘制，在绘制完成后利用传统的图片识别技术对绘制的涂鸦图片进行识别。这种方式存在以下几个缺点：第一，使用鼠标或者触摸屏这种接触式交互方式进行轨迹绘制需要用户距离 PC机以及触摸屏距离较近，在极大限制了游戏应用场景的同时也降低了用户交互体验。第二，基于传统算法的图片识别技术相较于基于深度学习的图像识别技术在算法精度以及鲁棒性上都有不小差距。第三，在当人们卫生安全意识不断提升的情况下接触式的交互方式导致每个用户都需要接触相关设备，增加了细菌、病毒等传染源传播的风险。第四，随着人工智能技术和虚拟现实技术的高速发展，人机交互模式必然是从接触式交互朝向非接触的方向发展，从而让用户拥有更加健康、卫生和便捷的交互方式。因此开发出一套一种基于深度学习的非接触式涂鸦绘制方法与识别交互系统具有极大的需求背景以及实际意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开一种基于深度学习的非接触式涂鸦绘制方法，所述方法包括如下步骤：

步骤1，手部图片样本采集，通过单目RGB摄像机模组采集图片样本，利用手部检测算法检测当前图片中是否存在手，如果当前采集图片的画面中不存在手，则不进行任何后续算法与交互相关的操作，其中，当在采集图片中检测到手时，利用手部算法检测结果得到手部图片；

步骤2，手部关节坐标点检测，利用基于深度学习的方法对所述步骤1中得到的手部图片进行手部关键点检测，得到当前手部所有的关节点坐标；

步骤3，手部位置跟踪：利用基于关键点的跟踪算法对所述步骤1和步骤2的结果进行跟踪，得到感兴趣的目标手部以及对应的关节点坐标；

步骤4，手势识别，通过所述步骤3得到的目标手位置以及对应的关节点坐标判断每个手指是出于伸直还是弯曲的状态，进而实现对手势的准确快速识别。

步骤5，将手势识别结果转为控制指令，其中，在所述步骤4中主控制器得到当前手势识别的结果，然后将当前手势识别结果对应的控制指令传给涂鸦识别交互控制系统；

步骤6，所述涂鸦识别交互控制系统执行对应命令，涂鸦识别交互控制系统接收到主控制器传来的控制指令后，对控制指令进行解析，并进行对应控制指令的执行，针对不同的控制指令提醒用户进行对应的操作；

步骤7，生成隔空绘制的涂鸦图片；

步骤8，涂鸦图片的识别，利用所述步骤7中得到的所有映射点集合 {(x_d1,y_d1),(x_d2,y_d2),...}，分别求出该轨迹点集左上角与右小角坐标(x_dmin,y_dmin)和 (x_dmin,y_dmin)，其中，

x_dmin＝min(x_d1,x_d2,...)

y_dmin＝min(y_d1,y_d2,...)

x_dmax＝max(x_d1,x_d2,...)

y_dmax＝max(y_d1,y_d2,...)

利用(x_dmin,y_dmin)和(x_dmin,y_dmin)坐标将绘制的涂鸦对象从涂鸦画布中裁剪出来作为最终需要分类识别的涂鸦图片；

步骤9，识别结果的反馈与交互，将所述步骤8得到的当前涂鸦图片的识别结果反馈给涂鸦识别交互系统，涂鸦识别交互系统根据交互规则与用户进行交互，最终实现非接触式涂鸦图片绘制与识别交互功能。

更进一步地，设置不同的手势动作代表涂鸦识别应用不同的控制指令，主要的手势动作与控制指令对应关系为：若检测到手部五指张开1秒则执行开始绘制涂鸦图片指令；若检测到手部食指伸直，其他手指弯曲则执行绘制食指指尖轨迹指令；若检测手部大拇指与食指弯曲，其他手指伸直则执行绘制结束指令；若检测手部握拳1秒则执行结束指令。

更进一步地，获取手势动作的判定结果，结合当前指令状态将手势识别结果转化为对应的控制指令；在识别到开始绘制涂鸦图片指令后，涂鸦识别系统生成一张与RGB摄像机采集图片帧相同分辨率的虚拟涂鸦图片画布，该画布所有像素初始灰度值为255；通过跟踪手部位置，在手部移动的过程中保持手部食指伸直，其他手指弯曲的状态，系统连续跟踪食指指尖的坐标，并在虚拟涂鸦图片画布上绘制灰度值为0的轨迹作为最终涂鸦图片；将控制指令发送给涂鸦识别系统实现无接触式自动涂鸦识别系统的交互控制。

更进一步地，所述步骤7进一步包括：涂鸦识别交互控制系统识别到绘制指令后，交互系统会立即生成一张分辨率与RGB摄像头相同，灰度值都为255的灰度图片作为虚拟涂鸦初始画布，即每个坐标像素值I(x,y)＝255，其中，设原始RGB图片像素坐标系为O-X_sY_s，生成的虚拟涂鸦画布的坐标系为O-X_dY_d，经过平移旋转缩放的坐标变换即可得到原图坐标系中每个像素点坐标(x_s,y_s)对应于涂鸦画布坐标系中每个像素点坐标(x_d,y_d)，其中平移、旋转、缩放矩阵如下：

最终的转换矩阵：T＝T_rot×T_scale×T_trans。

在绘制指令不断执行的过程中，通过连续对手势进行检测、识别与跟踪，得到原图坐标系下食指指尖的轨迹坐标(x_s,y_s)，利用矩阵T得到涂鸦画布坐标系下对应的坐标(x_d,y_d),其中：

假设得到连续两帧涂鸦画布坐标系下坐标(x_d1，y_d1)和(x_d2,y_d2)后，在涂鸦画布中绘制从起点(x_d1,y_d1)至终点(x_d2,y_d2)并且灰度值为0的直线,通过不断利用连续两帧绘制的直线即可得到隔空绘制的涂鸦图片。

更进一步地，所述步骤8进一步包括：在识别过程中考虑到实时性，采用轻量级的基于深度学习的涂鸦识别算法对涂鸦图片进行识别，并将识别结果返回给主控制器与涂鸦识别交互系统。

本发明进一步公开了一种隔空涂鸦识别交互控制系统，所述隔空涂鸦识别交互控制系统包括：相互连接的手势识别装置、主控处理器和涂鸦识别交互系统；其中手势识别装置用于对采集的图片进行手势检测、跟踪以及识别并将对应的结果发送至主控处理器，包括：图片提取模块、手部检测模块、手部跟踪模块、手部姿态识别模块以及涂鸦图片生成模块。主控处理器根据接收到的手势识别结果以及涂鸦图片生成控制指令并发送至涂鸦识别交互系统，涂鸦交互系统通过具体的指令内容以及对涂鸦图片的识别完成与用户的交互控制。

本发明进一步公开了一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明进一步公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

与现有技术相比，本发明进行如下几点改进：一、针对使用鼠标或者触摸屏这种接触式交互方式的弊端，本发明基于单目RGB摄像头硬件，利用基于深度学习的手部检测、手部跟踪以及手部姿态估计算法，输出用户手部各个关节在图像坐标系中的坐标。同时利用手部关键点坐标进行手部姿态的识别与坐标计算，进而代替鼠标以及触摸屏的功能，拓展了应用的使用场景并且改善了交互体验；二、利用基于深度学习的手部检测、手部跟踪以及手势姿态估计算法代替鼠标和触摸屏的技术方案实现非接触式的交互体验；三、利用基于深度学习的手部姿态估计算法，能够稳定地得到用户手部各个关节在应用过程中的坐标变化，利用指定关节的坐标变化，生成实时运动轨迹，通过坐标转换，将原图坐标系中实时运动轨迹映射到虚拟涂鸦画布中，利用轨迹生成涂鸦线条，进而实现绘制涂鸦图片的功能，确保非接触式涂鸦识别方案的可行性。四、对得到的涂鸦图片采用基于深度学习的图片识别算法进行识别，增加了涂鸦图片识别的精度、鲁棒性、拓展性以及实用性。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明的基于深度学习的非接触式涂鸦识别交互系统示意图；

图2为本发明一实施例中蜡烛涂鸦图片示意图；

图3为本发明一种深度学习的非接触式涂鸦绘制方法与识别交互系统工作流程图。

具体实施方式

实施例一

为解决上述技术问题，本发明提供的一种基于深度学习的隔空涂鸦识别方法主要包括：(1)设置不同的手势动作代表涂鸦识别应用不同的控制指令，主要的手势动作与控制指令对应关系为：

手部五指张开1秒：开始绘制涂鸦图片指令；

手部食指伸直，其他手指弯曲：绘制食指指尖轨迹指令；

手部大拇指与食指弯曲，其他手指伸直：绘制结束指令；

手部握拳1秒：结束指令；

(2)获取手势动作的判定结果，结合当前指令状态将手势识别结果转化为对应的控制指令。

(3)在识别到开始绘制涂鸦图片指令后，涂鸦识别系统生成一张与RGB摄像机采集图片帧相同分辨率的虚拟涂鸦图片画布，该画布所有像素初始灰度值为255。

(4)通过跟踪手部位置，在手部移动的过程中保持手部食指伸直，其他手指弯曲的状态，系统连续跟踪食指指尖的坐标，并在虚拟涂鸦图片画布上绘制灰度值为0的轨迹作为最终涂鸦图片。

(5)将控制指令发送给涂鸦识别系统实现无接触式自动涂鸦识别系统的交互控制。

实施例二

本发明在解决现有技术缺陷的同时，提供了一种隔空涂鸦识别交互控制系统，其系统结构示意图见图1，主要包括：相互连接的手势识别装置、主控处理器和涂鸦识别交互系统。其中手势识别装置用于对采集的图片进行手势检测、跟踪以及识别并将对应的结果发送至主控处理器，主要包括：图片提取模块、手部检测模块、手部跟踪模块、手部姿态识别模块以及涂鸦图片生成模块。主控处理器根据接收到的手势识别结果以及涂鸦图片生成控制指令并发送至涂鸦识别交互系统。涂鸦交互系统通过具体的指令内容以及对涂鸦图片的识别完成与用户的交互控制。

本发明提供的一种基于深度学习的非接触式涂鸦绘制方法与识别交互系统的主要工作流程图见图3，其中主要工作流程为以下九个过程：

第一个过程：手部图片样本采集。通过单目RGB摄像机模组采集图片样本，利用手部检测算法检测当前图片中是否存在手，如果当前采集图片的画面中不存在手，则不进行任何后续算法与交互相关的操作。当在采集图片中检测到手时，利用手部算法检测结果得到手部图片；

第二个过程：手部关节坐标点检测。利用基于深度学习的方法对第一个过程中得到的手部图片进行手部关键点检测，得到当前手部所有的关节点坐标。

第三个过程：手部位置跟踪：利用基于关键点的跟踪算法对第一、二过程的结果进行跟踪，得到感兴趣的目标手部以及对应的关节点坐标。

第四个过程：手势识别。通过第三个过程得到的目标手位置以及对应的关节点坐标判断每个手指是出于伸直还是弯曲的状态。进而实现对手势的准确快速识别。

第五个过程：手势识别结果转为控制指令。在第四个过程中主控制器得到当前手势识别的结果，然后将当前手势识别结果对应的控制指令传给涂鸦识别交互控制系统。

第六个过程：涂鸦识别交互控制系统执行对应命令。涂鸦识别交互控制系统接收到主控制器传来的控制指令后，对控制指令进行解析，并进行对应控制指令的执行，针对不同的控制指令提醒用户进行对应的操作。

第七个过程：生成隔空绘制的涂鸦图片。涂鸦识别交互控制系统识别到绘制指令后，交互系统会立即生成一张分辨率与RGB摄像头相同，灰度值都为255的灰度图片作为虚拟涂鸦初始画布，即每个坐标像素值I(x，y)＝255。设原始RGB图片像素坐标系为O-X_sY_s，生成的虚拟涂鸦画布的坐标系为O-X_dY_d。经过平移旋转缩放的坐标变换即可得到原图坐标系中每个像素点坐标(x_s，y_s)对应于涂鸦画布坐标系中每个像素点坐标(x_d,y_d)，其中平移、旋转、缩放矩阵如下：

最终的转换矩阵：T＝T_rot×T_scale×T_trans。

假设得到连续两帧涂鸦画布坐标系下坐标(x_d1,y_d1)和(x_d2,y_d2)后，在涂鸦画布中绘制从起点(x_d1,y_d1)至终点(x_d2,y_d2)并且灰度值为0的直线。通过不断利用连续两帧绘制的直线即可得到隔空绘制的涂鸦图片。图2为生成的蜡烛涂鸦图片示意图。

第八个过程：涂鸦图片的识别。利用第七个过程中得到的所有映射点集合 {(x_d1,y_d1),(x_d2,y_d2),...}，分别求出该轨迹点集左上角与右小角坐标(x_dmin,y_dmin)和 (x_dmin,y_dmin)。其中

x_dmin＝min(x_d1,x_d2,...)

y_dmin＝min(y_d1,y_d2,...)

x_dmax＝max(x_d1,x_d2,...)

y_dmax＝max(y_d1,y_d2,...)

利用(x_dmin,y_dmin)和(x_dmin,y_dmin)坐标将绘制的涂鸦对象从涂鸦画布中裁剪出来作为最终需要分类识别的涂鸦图片。在识别过程中考虑到实时性，采用轻量级的基于深度学习的涂鸦识别算法对涂鸦图片进行识别，并将识别结果返回给主控制器与涂鸦识别交互系统。

第九个过程：识别结果的反馈与交互。将第八个过程得到的当前涂鸦图片的识别结果反馈给涂鸦识别交互系统，涂鸦识别交互系统根据交互规则与用户进行交互，最终实现非接触式涂鸦图片绘制与识别交互功能。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于深度学习的非接触式涂鸦绘制方法，其特征在于，所述方法包括如下步骤：

步骤7，生成隔空绘制的涂鸦图片；

步骤8，涂鸦图片的识别，利用所述步骤7中得到的所有映射点集合{(x_d1,y_d1),(x_d2,y_d2),...}，分别求出该轨迹点集左上角与右小角坐标(x_dmin,y_dmin)和(x_dmin,y_dmin)，其中，

x_dmin＝min(x_d1,x_d2,...)

y_dmin＝min(y_d1,y_d2,...)

x_dmax＝max(x_d1,x_d2,...)

y_dmax＝max(y_d1,y_d2,...)

2.如权利要求1所述的一种基于深度学习的非接触式涂鸦绘制方法，其特征在于，设置不同的手势动作代表涂鸦识别应用不同的控制指令，主要的手势动作与控制指令对应关系为：若检测到手部五指张开1秒则执行开始绘制涂鸦图片指令；若检测到手部食指伸直，其他手指弯曲则执行绘制食指指尖轨迹指令；若检测手部大拇指与食指弯曲，其他手指伸直则执行绘制结束指令；若检测手部握拳1秒则执行结束指令。

3.如权利要求2所述的一种基于深度学习的非接触式涂鸦绘制方法，其特征在于，获取手势动作的判定结果，结合当前指令状态将手势识别结果转化为对应的控制指令；在识别到开始绘制涂鸦图片指令后，涂鸦识别系统生成一张与RGB摄像机采集图片帧相同分辨率的虚拟涂鸦图片画布，该画布所有像素初始灰度值为255；通过跟踪手部位置，在手部移动的过程中保持手部食指伸直，其他手指弯曲的状态，系统连续跟踪食指指尖的坐标，并在虚拟涂鸦图片画布上绘制灰度值为0的轨迹作为最终涂鸦图片；将控制指令发送给涂鸦识别系统实现无接触式自动涂鸦识别系统的交互控制。

4.如权利要求3所述的一种基于深度学习的非接触式涂鸦绘制方法，其特征在于，所述步骤7进一步包括：涂鸦识别交互控制系统识别到绘制指令后，交互系统会立即生成一张分辨率与RGB摄像头相同，灰度值都为255的灰度图片作为虚拟涂鸦初始画布，即每个坐标像素值I(x,y)＝255，其中，设原始RGB图片像素坐标系为O-X_sY_s，生成的虚拟涂鸦画布的坐标系为O-X_dY_d，经过平移旋转缩放的坐标变换即可得到原图坐标系中每个像素点坐标(x_s,y_s)对应于涂鸦画布坐标系中每个像素点坐标(x_d,y_d)，其中平移、旋转、缩放矩阵如下：

最终的转换矩阵：T＝T_rot×T_scale×T_trans。

假设得到连续两帧涂鸦画布坐标系下坐标(x_d1,y_d1)和(x_d2,y_d2)后，在涂鸦画布中绘制从起点(x_d1,y_d1)至终点(x_d2,y_d2)并且灰度值为0的直线,通过不断利用连续两帧绘制的直线即可得到隔空绘制的涂鸦图片。

5.如权利要求4所述的一种基于深度学习的非接触式涂鸦绘制方法，其特征在于，所述步骤8进一步包括：在识别过程中考虑到实时性，采用轻量级的基于深度学习的涂鸦识别算法对涂鸦图片进行识别，并将识别结果返回给主控制器与涂鸦识别交互系统。

6.一种隔空涂鸦识别交互控制系统，应用权利要求1-5所述的方法，其特征在于，所述隔空涂鸦识别交互控制系统包括：相互连接的手势识别装置、主控处理器和涂鸦识别交互系统；其中手势识别装置用于对采集的图片进行手势检测、跟踪以及识别并将对应的结果发送至主控处理器，包括：图片提取模块、手部检测模块、手部跟踪模块、手部姿态识别模块以及涂鸦图片生成模块。主控处理器根据接收到的手势识别结果以及涂鸦图片生成控制指令并发送至涂鸦识别交互系统，涂鸦交互系统通过具体的指令内容以及对涂鸦图片的识别完成与用户的交互控制。

7.一种设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一所述方法的步骤。