CN108241434B

CN108241434B - 基于景深信息的人机交互方法、装置、介质及移动终端

Info

Publication number: CN108241434B
Application number: CN201810005036.7A
Authority: CN
Inventors: 陈岩; 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2020-01-14
Anticipated expiration: 2038-01-03
Also published as: WO2019134527A1; CN108241434A

Abstract

本申请实施例公开了一种基于景深信息的人机交互方法、装置、介质及移动终端。该方法包括：在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息；根据所述面部信息确定用户状态；根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。由于用户图像具有深度信息，可以检测到更多的细节信息，提高动作检测的准确性，避免因用户误触导致应用程序误响应的问题，提升了人机交互的准确性与便捷性，使移动终端可以“看见”用户，提高了人机交互的智能性，丰富了人机交互功能的应用场景。

Description

基于景深信息的人机交互方法、装置、介质及移动终端

技术领域

本申请实施例涉及移动终端技术，尤其涉及一种基于景深信息的人机交互方法、装置、介质及移动终端。

背景技术

随着移动终端技术的发展，移动终端的用途不再限于打电话及发信息等方面，越来越多的用户在移动终端中安装视频播放器、音乐播放器及电子阅读器等应用程序，以方便使用。

相关技术中对应用程序的控制通常是采用手动控制方式，在应用程序的使用过程中，通常需要用户重复的输入一些简单操作，影响人机交互的便捷性，且容易出现误触的问题。

发明内容

本申请实施例提供一种基于景深信息的人机交互方法、装置、介质及移动终端，可以优化人机交互方案，提高应用程序控制的便捷性及准确性。

第一方面，本申请实施例提供了一种基于景深信息的人机交互方法，包括：

在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息，其中，所述面部信息包括具有景深信息的面部图像；

根据所述面部信息确定用户状态；

根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。

第二方面，本申请实施例还提供了一种基于景深信息的人机交互装置，该装置包括：

信息获取模块，用于在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息，其中，所述面部信息包括具有景深信息的面部图像；

状态确定模块，用于根据所述面部信息确定用户状态；

应用控制模块，用于根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。

第三方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的基于景深信息的人机交互方法。

第四方面，本申请实施例还提供了一种移动终端，包括3D深度摄像头、存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，该3D深度摄像头包括普通摄像头和红外摄像头，用于拍摄具有景深信息的面部图像；所述处理器执行所述计算机程序时实现如上述第一方面所述的基于景深信息的人机交互方法。

本申请实施例提供一种基于景深信息的人机交互方案，通过在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息；根据该面部信息确定用户状态；根据用户状态确定控制指示，并根据控制指示对目标应用程序进行控制。采用上述技术方案，基于具有景深信息的面部图像对用户面部进行跟踪，从而，得到用户头部的运动状态，由预先设置的控制指示与用户状态的对应关系，确定对应的控制指示，进而，根据该控制指示对目标应用程序进行控制，由于用户图像具有深度信息，可以检测到更多的细节信息，提高动作检测的准确性，避免因用户误触导致应用程序误响应的问题，提升了人机交互的准确性与便捷性，使移动终端可以“看见”用户，提高了人机交互的智能性，丰富了人机交互功能的应用场景。

附图说明

图1是本申请实施例提供的一种基于景深信息的人机交互方法的流程图；

图2是本申请实施例提供的另一种基于景深信息的人机交互方法的流程图；

图3是本申请实施例提供的一种计算参考偏移角度的方案示意图；

图4是本申请实施例提供的一种基于景深信息的人机交互装置的结构框图；

图5是本申请实施例提供的一种移动终端的结构框图；

图6是本申请实施例提供的一种智能手机的结构框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理，但是其中的许多步骤可以被并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1为本申请实施例提供的一种基于景深信息的人机交互方法的流程图。该方法可以由基于景深信息的人机交互装置来执行，其中，该装置可由软件和/或硬件实现，一般可集成在移动终端中，例如具有3D深度摄像头的移动终端。如图1所示，该方法包括：

步骤110、在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息。

需要说明的是，在初始化人机交互功能时，提示用户输入待通过面部信息控制的应用程序，记为目标应用程序，并将目标应用程序存储于白名单内。目标应用程序包括视频应用、音频应用及电子书等。可以理解的是，目标应用程序还可以是系统默认的可以通过面部信息控制的应用，该目标应用程序以配置文件的形式在移动终端出厂前被配置于移动终端内。

需要说明的是，3D深度摄像头可以用于拍摄具有景深信息的图像，可以检测到多种用户动作，提供了针对目标应用程序的多种控制动作，丰富了控制动作的种类。可选的，3D深度摄像头包括基于结构光深度测距的深度摄像头和基于TOF(Time Of Flight)测距的深度摄像头。

例如，基于结构光深度测距的深度摄像头包括普通摄像头(例如，可以是RGBcamera)和红外摄像头(可以是infrared camera)。红外摄像头将一定模式的光结构投射到当前待拍摄的场景中，在场景中的各个人或物体表面形成由该场景中的人或物调制后的光条三维图像，再通过普通摄像头探测上述的光条三维图像即可获得光条二维畸变图像。光条的畸变程度取决于普通摄像头与红外摄像头之间的相对位置以及当前待拍摄的场景中各个人或物体的表面形廓或高度。由于深度摄像头中的普通摄像头和红外摄像头之间的相对位置是一定的，因此，由该光条二维畸变图像的图像坐标便可重现场景中各个人或物体的表面三维轮廓，从而可以获取深度信息。结构光深度测距具有较高的分辨率和测量精度，可以提升获取的深度信息的精确度。

可选的，本申请实施例中3D深度摄像头还可以是基于TOF测距的深度摄像头，通过传感器记录从发光单元发出的调制红外光发射到物体，再从物体反射回来的相位变化，在一个波长的范围内根据光速，可以实时的获取整个场景深度距离。当前待拍摄的场景中各个人或物体所处的深度位置不一样，因此调制红外光从发出到接收所用时间是不同的，如此，便可获取场景的深度信息。基于TOF深度测距的深度摄像头计算深度信息时不受被摄物表面的灰度和特征的影响，且可以快速地计算深度信息，具有很高的实时性。

需要说明的是，面部信息包括具有景深信息的面部图像。在本申请实施例中，由移动终端监测目标应用程序的状态。若检测到该目标应用程序被启动，则与该目标应用程序的启动操作并行执行打开3D深度摄像头的操作。在3D深度摄像头被开启后，控制3D深度摄像头对用户进行拍摄。需要说明的是，通过3D深度摄像头对用户的面部进行拍摄得到面部图像。若检测到通过3D深度摄像头未获取到用户完整的面部图像，则提示用户调整面部姿态。可选的，可以在相机的预览界面中显示一个提示框，以提示用户将面部对准该提示框。

示例性的，控制3D深度摄像头对用户进行拍摄的方式可以是按照设定的周期控制3D深度摄像头对用户的面部进行拍摄，得到多帧面部图像。

步骤120、根据所述面部信息确定用户状态。

需要说明的是，预先设定与预设的控制指示对应的用户状态，包括但不限于用户左右摆动头部对应翻页或切歌等控制指示，用户将头部转至设定位置并停留设定时间的状态与视频快进的控制指示对应，以及，用户的头部偏移角度超过设定角度阈值与视频切换的控制指示对应。例如，用户左右摆动头部，对应于电子书的翻页指令，即用户向右摆动头部与控制指示“下一页”对应，用户向左摆动头部与控制指示“上一页”对应。又如，头部向右偏转至设定位置的偏移角度小于设定角度阈值，如果在该设置位置的停留时间属于设定时间区间，则控制目标视频应用中播放的视频快进第一时间长度。如果用户头部向右偏转至设定位置的偏移角度小于设定角度阈值，且在该设置位置的停留时间超过设定时间阈值，则控制视频持续快进，直至检测到用户状态发生变化，才停止对该视频的快进操作。

本申请实施例中，根据面部图像的景深信息确定脸部的偏移角度。由于景深信息反映了脸部像素点的空间位置关系，可以通过景深信息计算脸部的偏移角度。具体可以是，识别面部图像中的双眼的位置，根据双眼确定脸部对称轴。在脸部正对3D深度摄像头时，由于左脸区域及右脸区域与3D深度摄像头的距离基本相同，所以分别提取左脸区域与右脸区域的设定采样点，该设定采样点的景深信息基本相同。若用户头部发生偏转，则左脸区域与右脸区域的景深信息会随之发生变化，使左脸区域与右脸区域处于不同的深度平面，进而，设定采样点的景深信息不再相同。可以基于左脸区域及右脸区域的景深信息的三角关系计算脸部的偏移角度。示例性的，分别由左脸区域选择设定数量的设定采样点，并对应的由右脸区域选择相同数量的设定采样点，构成设定采样点对，根据设定采样点对的景深信息，采用反正切函数分别计算各个设定采样点对的参考偏移角度，计算参考偏移角度的平均值作为脸部的偏移角度。可选的，可以选择靠近鼻梁一侧的左眼角及右眼角对应的像素点构成设定采样点对，还可以分别由靠近鼻梁一侧的左眼角及右眼角所在的设定直线(该设定直线与双眼连线垂直)上对应的选取采样点等等。

可以理解的是，根据面部信息确定用户状态的方式有很多种，本申请并不作具体限定，例如，还可以预先拍摄用户的脸部朝向各个预设角度的面部图像，并作为图像模板进行存储。在需要根据面部信息确定用户状态时，可以根据拍摄的面部图像与图像模板进行图像匹配，以确定脸部的偏移角度。

本申请实施例中，可以通过比较相邻两个拍摄时刻对应的面部图像确定用户头部转动的起始时刻及用户头部停止转动的时刻。在检测到用户头部停止转动时，根据该时刻的面部图像的景深信息确定脸部的偏移角度。另外，在检测到用户头部停止转动时，触发计时器启动，开始计时，并在检测到用户头部再次运动时停止计时，以记录头部在该偏移角度对应的位置停留的时间。

步骤130、根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。

需要说明的是，控制指示为与目标应用程序的控制指令对应的操作指示，包括但不限于快进、后退、切换至下一个文件、切换至上一个文件及翻页。预先设定与预设的控制指示对应的用户状态，并将控制指示与用户状态关联存储于白名单内。

本申请实施例中，移动终端在确定用户状态后，根据该用户状态查询预先设置的白名单，可以确定与该用户状态对应的控制指示，确定该控制指示对应的指令，该指令可以被目标应用程序识别并执行，发送该指令至目标应用程序。目标应用程序在接收到该指令时，执行该指令对应的操作，以响应该指令对应的控制指示。例如，在目标视频应用程序运行的过程中，检测到用户的头部向右偏移至设定角度，且在该设定角度对应的位置停留了3s，假设该设定角度小于设定角度阈值且停留时间输入设定时间区间，则确定控制指示是控制视频快进5分钟(该时间并不限于5分钟，可以是系统默认时间也可以由用户自行设定)，发送该控制指示对应的指令至目标视频应用程序，以控制当前播放的视频文件快进5分钟。又如，在目标视频应用程序运行的过程中，检测到用户的头部向右偏移至设定角度，若该设定角度超过设定角度阈值，则确定控制指示是切换视频(即播放下一集)，发送该控制指示至目标视频应用程序，以控制播放当前视频的下一集。

本实施例的技术方案，通过在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息；根据该面部信息确定用户状态；根据用户状态确定控制指示，并根据控制指示对目标应用程序进行控制。采用上述技术方案，基于具有景深信息的面部图像对用户面部进行跟踪，从而，得到用户头部的运动状态，由预先设置的控制指示与用户状态的对应关系，确定对应的控制指示，进而，根据该控制指示对目标应用程序进行控制，由于用户图像具有深度信息，可以检测到更多的细节信息，提高动作检测的准确性，避免因用户误触导致应用程序误响应的问题，提升了人机交互的准确性与便捷性，使移动终端可以“看见”用户，提高了人机交互的智能性，丰富了人机交互功能的应用场景。

需要说明的是，在检测到用户首次使用该人机交互功能时，以引导界面的方式展示用户状态与控制指示的对应关系，以提示用户可以输入的控制动作。

图2是本申请实施例提供的另一种基于景深信息的人机交互方法的流程图。如图2所示，该方法包括：

步骤210、控制3D深度摄像头包括的普通摄像头按照设定周期获取脸部对应的二维图像。

需要说明的是，3D深度摄像头包括普通摄像头及红外摄像头。在检测到用户开启某一应用程序时，获取该应用程序的应用标识(可以是包名或进程名等)，根据该应用标记查询预设的白名单，判断该应用程序是否为目标应用程序。在该应用程序是目标应用程序时，控制普通摄像头开启，并按照设定周期拍摄脸部对应的二维图像。可选的，在普通摄像头开启后，检测预览画面中是否包括人脸，若是，则按照设定周期拍摄脸部对应的二维图像，否则，提示用户调整脸部姿态，直至在预览画面中检测到人脸。通过比较相邻拍摄时刻的二维图像，确定用户是否转动头部。在检测到用户转动头部时，拍摄一帧脸部对应的二维图像，作为起始时刻的第一图像。顺序获取当前拍摄的二维图像与上一拍摄时刻的原始图像进行比较，以确定头部运动停止时刻，在检测到头部运动停止时，拍摄一帧脸部对应的二维图像，记为第二图像。

步骤220、确定所述二维图像对应的面部特征。

本申请实施例中，采用轮廓检测技术对该二维图像包含的人脸区域进行检测，确定人脸轮廓，进而，根据人脸轮廓确定脸部面积。

可以理解的是，本申请实施例并不具体限定面部特征的含义，面部特征还可以是人脸像素点在预览画面中的占比。例如，确定该二维图像包含的人脸区域，从而，获取人脸区域中平行于移动终端的触摸屏长边方向的最大纵向分辨率，获取人脸区域中平行于移动终端的触摸屏短边方向的最大横向分辨率，根据该最大纵向分辨率与最大横向分辨率得到人脸区域对应的尺寸，将该人脸区域对应的尺寸与触摸屏的尺寸相除得到人脸像素点在预览画面中的占比。

步骤230、根据所述面部特征判断所述二维图像是否满足设定条件，若是，则执行步骤240，否则返回执行步骤210。

确定上述第一图像与第二图像的脸部面积差值，并将该脸部面积差值与设定阈值进行比较，根据比较结果判断该二维图像是否满足设定条件。示例性的，在该脸部面积差值小于设定阈值时，确定该二维图像不满足设定条件，避免用户小幅度的头部变化被检测而出现误控制情形，提高移动终端的控制精确度，例如，可以避免用户在观看视频或读电子书时，因为打个喷嚏而触发误控制的问题。在该脸部面积差值超过设定阈值时，确定该二维图像满足设定条件。

步骤240、开启所述3D深度摄像头包括的红外摄像头，并通过所述红外摄像头及普通摄像头拍摄面部图像，关闭所述红外摄像头。

在该二维图像满足设定条件时，打开该3D深度摄像头包括的红外摄像头，通过所述红外摄像头对头部运动停止时刻的面部信息进行拍摄，得到深度图像，并通过普通摄像头再拍摄至少一帧脸部对应的二维图像，由该深度图像及重新拍摄的二维图像构成三维面部图像。

可以理解的是，在用户状态检测的过程中，通常是通过普通摄像头检测脸部运动以及单次脸部运动的终点。单次脸部运动可以是包括由上述起始时刻到头部运动停止时刻的运动过程，并且单次脸部运动的终点为头部运动停止时刻。在检测到该终点时开启红外摄像头，拍摄三维脸部图像，在通过红外摄像头拍摄得到深度图像后，关闭该红外摄像头，可以降低移动终端的功耗。

可选的，还可以由普通摄像头在头部运动停止时刻拍摄的第二图像与该红外摄像头拍摄的深度图像构成三维面部图像。

步骤250、根据该三维面部图像确定用户状态。

根据该三维面部图像对应的景深信息确定脸部的偏移角度，并记录头部在头部运动停止位置停留的时间，用户状态包括该偏移角度及头部在头部运动停止位置停留的时间。

识别该三维面部图像，确定三维图像中五官的位置，从而确定人脸区域以及人脸区域的对称轴。以该对称轴将人脸区域分为左脸区域和右脸区域。由左脸区域的设定位置提取设定数量的特征点，并以该对称轴为基准，确定该特征点在右脸区域的镜像特征点，由特征点及镜像特征点构成设定采样点对。获取各个设定采样点对的景深信息，以及设定采样点对中特征点与镜像特征点的距离，采用反正切函数计算各个设定采样点对的参考偏移角度。以一对设定采样点为例，说明参考偏移角度的计算方案，图3是本申请实施例提供的一种计算参考偏移角度的方案示意图，如图3所示，L1和L2分别为特征点320和镜像特征点330到3D深度摄像头310的距离，即为特征点320和镜像特征点330对应的景深信息，W为特征点320和镜像特征点330之间的距离。假设用户的头部向左偏转，则对称轴AB由第一位置340变为对应第二位置350，并且特征点320和镜像特征点330关于第二位置处的对称轴AB对称，以对称轴AB的偏移角度作为特征点320和镜像特征点330对应的参考偏移角度α，可以采用下述公式计算参考偏移角度α：

可以理解是的，采用上述公式可以计算各对设定采样点对的参考偏移角度，从而，根据该参考偏移角度确定脸部的偏移角度。例如，可以计算参考偏移角度的平均值，作为脸部的偏移角度。又如，可以对该参考偏移角度进行降序排列，将最大参考偏移角度作为脸部的偏移角度，还可以将最小参考偏移角度或位于队列中间位置的参考偏移角度作为脸部的偏移角度。

步骤260、根据该用户状态查询预先设置的白名单，确定与该用户状态对应的控制指示。

需要说明的是，用户状态包括脸部的偏移角度及头部在该偏移角度对应的位置停留的时间。

步骤270、将该控制指示对应的指令发送至所述目标应用程序。

本实施例的技术方案，通过控制3D深度摄像头包括的普通摄像头按照设定周期获取脸部对应的二维图像，在该二维图像满足设定条件时，打开该3D深度摄像头包括的红外摄像头，通过所述红外摄像头对头部运动停止时刻的面部信息进行拍摄，得到深度图像，实现先通过普通摄像头检测脸部运动以及单次脸部运动的终点，在检测到该终点时开启红外摄像头，以拍摄三维脸部图像，可以降低移动终端的功耗，延长续航时间。另外，判断二维图像是否满足设定条件，可以有效地避免误检测导致对目标应用程序的误控制，进一步提高了移动终端的控制准确度。

图4是本申请实施例提供的一种基于景深信息的人机交互装置的结构框图。该装置可以用过软件和/或硬件实现，可被集成于移动终端内，例如具有3D深度摄像头的移动终端，用于执行本申请实施例提供的基于景深信息的人机交互方法。如图4所示，该装置包括：

信息获取模块410，用于在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息，其中，所述面部信息包括具有景深信息的面部图像；

状态确定模块420，用于根据所述面部信息确定用户状态；

应用控制模块430，用于根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。

本申请实施例提供一种基于景深信息的人机交互装置，基于具有景深信息的面部图像对用户面部进行跟踪，从而，得到用户头部的运动状态，由预先设置的控制指示与用户状态的对应关系，确定对应的控制指示，进而，根据该控制指示对目标应用程序进行控制，由于用户图像具有深度信息，可以检测到更多的细节信息，提高动作检测的准确性，避免因用户误触导致应用程序误响应的问题，提升了人机交互的准确性与便捷性，使移动终端可以“看见”用户，提高了人机交互的智能性，丰富了人机交互功能的应用场景。

可选的，信息获取模块410包括：

二维图像获取子模块，用于控制3D深度摄像头包括的普通摄像头按照设定周期获取脸部对应的二维图像；

面部图像拍摄子模块，用于在所述二维图像满足设定条件时，开启所述3D深度摄像头包括的红外摄像头，并通过所述红外摄像头及普通摄像头拍摄面部图像，关闭所述红外摄像头。

可选的，还包括：

特征确定模块，用于在控制3D深度摄像头包括的普通摄像头按照设定周期获取脸部对应的二维图像之后，确定所述二维图像对应的面部特征；

条件判断模块，用于根据所述面部特征判断所述二维图像是否满足设定条件。

可选的，条件判断模块具体用于：

确定第一图像与第二图像的脸部面积差值，其中，所述第一图像为头部运动起始时刻拍摄得到的二维图像，第二图像为头部运动停止时刻拍摄得到的二维图像；

将所述脸部面积差值与设定阈值进行比较，根据比较结果判断所述二维图像是否满足设定条件。

进一步的，面部图像拍摄子模块具体用于：

通过所述红外摄像头对头部运动停止时刻的面部信息进行拍摄，得到深度图像，所述深度图像与所述第二图像构成所述面部图像。

可选的，状态确定模块420具体用于：

根据所述面部图像的景深信息确定脸部的偏移角度，并记录头部在所述偏移角度对应的位置停留的时间。

可选的，应用控制模块430具体用于：

根据所述用户状态查询预先设置的白名单，确定与所述用户状态对应的控制指示，其中，所述控制指示包括快进、后退、切换至下一个文件、切换至上一个文件及翻页；

将所述控制指示对应的指令发送至所述目标应用程序，其中，所述指令用于指示所述目标应用程序响应所述控制指示，所述目标应用程序包括视频应用、音频应用及电子书。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种基于景深信息的人机交互方法，该方法包括：

根据所述面部信息确定用户状态；

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的基于景深信息的人机交互操作，还可以执行本申请任意实施例所提供的基于景深信息的人机交互方法中的相关操作。

本申请实施例提供了一种移动终端，该移动终端内具有操作系统，该移动终端中可集成本申请实施例提供的基于景深信息的人机交互装置。其中，移动终端可以为智能手机、PAD(平板电脑)及掌上游戏机等。图5是本申请实施例提供的一种移动终端的结构框图。如图5所示，该移动终端包括3D深度摄像头510、存储器520及处理器530。该3D深度摄像头510，包括普通摄像头和红外摄像头，用于拍摄具有景深信息的面部图像；该存储器520，用于存储计算机程序、面部图像和用户状态与控制指示的关联关系等；该处理器530读取并执行该存储器520中存储的计算机程序。该处理器530在执行该计算机程序时实现以下步骤：在检测到目标应用程序启动时，控制3D深度摄像头获取面部信息，其中，所述面部信息包括具有景深信息的面部图像；根据所述面部信息确定用户状态；根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制。上述示例中列举的3D深度摄像头、存储器及处理器均为移动终端的部分元器件，所述移动终端还可以包括其它元器件。以智能手机为例，说明上述移动终端可能的结构。图6是本申请实施例提供的一种智能手机的结构框图。如图6所示，该智能手机可以包括：存储器601、中央处理器(Central ProcessingUnit，CPU)602(又称处理器，以下简称CPU)、外设接口603、RF(Radio Frequency，射频)电路605、音频电路606、扬声器611、触摸屏612、摄像头613、电源管理芯片608、输入/输出(I/O)子系统609、其他输入/控制设备610以及外部端口604，这些部件通过一个或多个通信总线或信号线607来通信。

应该理解的是，图示智能手机600仅仅是移动终端的一个范例，并且智能手机600可以具有比图中所示出的更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

下面就本实施例提供的基于景深信息的人机交互装置的智能手机进行详细的描述。

存储器601，所述存储器601可以被CPU602、外设接口603等访问，所述存储器601可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在存储器611中存储计算机程序，还可以存储面部信息、用户状态与控制指示的关联关系对应的白名单，以及目标应用程序对应的白名单等。

外设接口603，所述外设接口603可以将设备的输入和输出外设连接到CPU602和存储器601。

I/O子系统609，所述I/O子系统609可以将设备上的输入输出外设，例如触摸612和其他输入/控制设备610，连接到外设接口603。I/O子系统609可以包括显示控制器6091和用于控制其他输入/控制设备610的一个或多个输入控制器6092。其中，一个或多个输入控制器6092从其他输入/控制设备610接收电信号或者向其他输入/控制设备610发送电信号，其他输入/控制设备610可以包括物理按钮(按压按钮、摇臂按钮等)、拨号盘、滑动开关、操纵杆、点击滚轮。值得说明的是，输入控制器6092可以与以下任一个连接：键盘、红外端口、USB接口以及诸如鼠标的指示设备。

触摸屏612，所述触摸屏612是用户终端与用户之间的输入接口和输出接口，将可视输出显示给用户，可视输出可以包括图形、文本、图标、视频等。

摄像头613，可以是3D深度摄像头，通过所述摄像头613获取人脸的面部三维图像，并将面部三维图像转换为电信号，通过外设接口603存储于存储器601。

I/O子系统609中的显示控制器6061从触摸屏612接收电信号或者向触摸屏612发送电信号。触摸屏612检测触摸屏上的接触，显示控制器6091将检测到的接触转换为与显示在触摸屏612上的用户界面对象的交互，即实现人机交互，显示在触摸屏612上的用户界面对象可以是运行游戏的图标、联网到相应网络的图标等。值得说明的是，设备还可以包括光鼠，光鼠是不显示可视输出的触摸敏感表面，或者是由触摸屏形成的触摸敏感表面的延伸。

RF电路605，主要用于建立手机与无线网络(即网络侧)的通信，实现手机与无线网络的数据接收和发送。例如收发短信息、电子邮件等。具体地，RF电路605接收并发送RF信号，RF信号也称为电磁信号，RF电路605将电信号转换为电磁信号或将电磁信号转换为电信号，并且通过该电磁信号与通信网络以及其他设备进行通信。RF电路605可以包括用于执行这些功能的已知电路，其包括但不限于天线系统、RF收发机、一个或多个放大器、调谐器、一个或多个振荡器、数字信号处理器、CODEC(COder-DECoder，编译码器)芯片组、用户标识模块(Subscriber Identity Module，SIM)等等。

音频电路606，主要用于从外设接口603接收音频数据，将该音频数据转换为电信号，并且将该电信号发送给扬声器611。

扬声器611，用于将手机通过RF电路605从无线网络接收的语音信号，还原为声音并向用户播放该声音。

电源管理芯片608，用于为CPU602、I/O子系统及外设接口所连接的硬件进行供电及电源管理。

本申请实施例提供的移动终端，基于具有景深信息的面部图像对用户面部进行跟踪，从而，得到用户头部的运动状态，由预先设置的控制指示与用户状态的对应关系，确定对应的控制指示，进而，根据该控制指示对目标应用程序进行控制，由于用户图像具有深度信息，可以检测到更多的细节信息，提高动作检测的准确性，避免因用户误触导致应用程序误响应的问题，提升了人机交互的准确性与便捷性，使移动终端可以“看见”用户，提高了人机交互的智能性，丰富了人机交互功能的应用场景。

上述实施例中提供的基于景深信息的人机交互装置、存储介质及移动终端可执行本申请任意实施例所提供的基于景深信息的人机交互方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的基于景深信息的人机交互方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种基于景深信息的人机交互方法，其特征在于，包括：

根据所述面部信息确定用户状态，其中，所述用户状态包括用户脸部的偏移角度和头部在所述偏移角度对应的位置停留的时间；

根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制，其中，所述用户状态与所述控制指示的对应关系包括用户将头部转至设定位置并停留设定时间的状态与视频快进的控制指示对应，以及，用户的头部偏移角度超过设定角度阈值与视频切换的控制指示对应；

其中，控制3D深度摄像头获取面部信息，包括：

控制3D深度摄像头包括的普通摄像头按照设定周期获取脸部对应的二维图像；

确定所述二维图像对应的面部特征；

根据所述面部特征判断所述二维图像是否满足设定条件；

在所述二维图像满足设定条件时，开启所述3D深度摄像头包括的红外摄像头，并通过所述红外摄像头及普通摄像头拍摄面部图像，关闭所述红外摄像头；

其中，根据所述面部特征判断所述二维图像是否满足设定条件，包括：

确定第一图像与第二图像的脸部面积差值，其中，所述第一图像为头部运动起始时刻拍摄得到的二维图像，所述第二图像为头部运动停止时刻拍摄得到的二维图像；

2.根据权利要求1所述的方法，其特征在于，通过所述红外摄像头及普通摄像头拍摄面部图像，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述面部信息确定用户状态，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制，包括：

根据所述用户状态查询预先设置的白名单，确定与所述用户状态对应的控制指示，其中，所述控制指示包括快进、后退、切换至下一个文件及切换至上一个文件；

将所述控制指示对应的指令发送至所述目标应用程序，其中，所述指令用于指示所述目标应用程序响应所述控制指示，所述目标应用程序包括视频应用。

5.一种基于景深信息的人机交互装置，其特征在于，包括：

状态确定模块，用于根据所述面部信息确定用户状态，其中，所述用户状态包括用户脸部的偏移角度和头部在所述偏移角度对应的位置停留的时间；

应用控制模块，用于根据所述用户状态确定控制指示，并根据所述控制指示对所述目标应用程序进行控制，其中，所述控制指示包括用户将头部转至设定位置并停留设定时间的状态与视频快进的控制指示对应，以及，用户的头部偏移角度超过设定角度阈值与视频切换的控制指示对应；

其中信息获取模块，包括：

特征确定模块，用于确定所述二维图像对应的面部特征；

条件判断模块，用于根据所述面部特征判断所述二维图像是否满足设定条件；

面部图像拍摄子模块，用于在所述二维图像满足设定条件时，开启所述3D深度摄像头包括的红外摄像头，并通过所述红外摄像头及普通摄像头拍摄面部图像，关闭所述红外摄像头；

其中，所述条件判断模块具体用于：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的基于景深信息的人机交互方法。

7.一种移动终端，包括3D深度摄像头、存储器，处理器及存储在存储器上并可在处理器运行的计算机程序，所述3D深度摄像头包括普通摄像头和红外摄像头，用于拍摄具有景深信息的面部图像；其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于景深信息的人机交互方法。