CN113183133B

CN113183133B - 面向多自由度机器人的手势交互方法、系统、装置及介质

Info

Publication number: CN113183133B
Application number: CN202110466803.6A
Authority: CN
Inventors: 张平; 孙迪钢
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2024-02-09
Anticipated expiration: 2041-04-28
Also published as: CN113183133A

Abstract

本发明公开了一种面向多自由度机器人的手势交互方法及系统，其中方法包括以下步骤：获取手势视频；从所述手势视频的视频帧中获取手势图像；根据手势图像识别出手势语义信息或手部姿态信息；基于当前的控制模式，根据手势语义信息或手部姿态信息获取控制机器人的控制指令；所述手势语义信息用于基本移动方向或基本姿态角的控制；所述手部姿态信息用于任意移动方向的控制或任意姿态的映射。本发明通过集成手部姿态估计和手势语义识别功能，实现对对机器人末端位置和姿态更加灵活的控制；另外，无需穿戴或手持传感器，用户交互体验更好，可广泛应用于人机交互技术领域。

Description

面向多自由度机器人的手势交互方法、系统、装置及介质

技术领域

本发明涉及人机交互技术领域，尤其涉及一种面向多自由度机器人的手势交互方法及系统。

背景技术

人机交互接口是人类将控制意图传递给机器人的中介，随着多自由度机器人的广泛应用，对交互方式的自然性和通用性、位置和姿态控制的精确性和快速性的综合平衡日益成为人机交互系统的基本要求。

多自由度机器人需要面对搬运、装配、涂胶、焊接、打磨等各种各样的生产任务，对机器人末端的位置和姿态的控制精度要求也不同。搬运、装配一类任务一般只对轨迹起始和终止位置的机器人末端位置和姿态精度有较高要求；而涂胶、焊接、打磨一类任务则对机器人运行轨迹全程的末端位置和姿态都有较高的精度要求。在有些作业场景中(比如汽车框架焊接)，机器人末端需要在一个受限的狭窄空间中完成相关操作，这对机器人末端位置和姿态的控制精度提出了更高要求。此外，在一些高温、高湿、高压、有毒的极限环境中，人类不能直接进入，这就需要交互方式能够支持遥控操作。

对多自由度机器人的交互控制主要涉及末端的位置和姿态两个方面。目前广泛使用的通过示教器对机器人进行编程还是一种“以机器为中心”的人机交互模式，不能满足人类意图自然表达的需求。拖动示教通过手持牵引机器人以某种固定或变化的姿态沿特定轨迹移动，同时记录移动过程中的位姿数据，以直观方式对机器人进行示教；但是，拖动示教需要机器人本体能够拖动，手持拖动的精度难以把控，而且拖动不是一种可遥控的操作。语音和手势是人类在日常生活中普遍使用的交互方式，但是语音对于快速人机交互控制中常用的任意方向和任意姿态的描述能力较差，而手势则在这方面具有天然优势。

基于手势的交互方式主要包括基于手势轨迹跟随、基于手势语义、基于手势姿态等。基于手势轨迹跟随的方式通过让机器人末端跟随人手的移动轨迹运动来实现机器人的控制；基于手势语义的方式通过识别手势语义，让机器人执行预定义的相应动作实现机器人控制；基于手部姿态的方式从手部姿态中提取出方向指示信息或直接通过姿态映射的方式实现机器人运动方向和姿态的控制。以上三种方式各有其优缺点：基于手势轨迹跟随的方式表达自然，可以表示连续的轨迹和姿态，但是受限于手部动作影响，轨迹精度对于工业机器人来说是不够的，需要大量的后续处理；基于手势语义的方式需要进行动作分解，而且手势的种类不能太多，以免造成识别精度下降和用户记忆负担过重，但是手势语义适合用于位置和姿态的精细微调；基于手部姿态的方式适合方向和姿态的快速交互，但是受人类表达和机器感知能力的限制，在精度方面有所欠缺。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种面向多自由度机器人的手势交互方法及系统。

本发明所采用的技术方案是：

一种面向多自由度机器人的手势交互方法，包括以下步骤：

获取手势视频；

从所述手势视频的视频帧中获取手势图像；

根据手势图像识别出手势语义信息或手部姿态信息；

基于当前的控制模式，根据手势语义信息或手部姿态信息获取控制机器人的控制指令；

所述手势语义信息用于基本移动方向或基本姿态角的控制；

所述手部姿态信息用于任意移动方向的控制或任意姿态的映射。

进一步，所述控制模式包括基本移动方向控制模式、任意移动方向控制模式、基本姿态角控制模式和任意姿态映射模式；

所述基本移动方向控制模式用于根据手势语义信息控制机器人按照预设的方向进行移动；

所述任意移动方向控制模式用于根据手部姿态信息控制机器人按照任意的方向进行移动；

所述基本姿态角控制模式用于根据手势语义信息控制机器人末端的横滚角、偏转角、俯仰角三个姿态角；

所述任意姿态映射模式用于根据手部姿态信息提取手部姿态中三个姿态角，将提取的姿态角映射到机器人末端；

所述手势语义信息中包括模式切换信息；当从手势图像识别到模式切换信息，根据模式切换信息切换控制模式。

进一步，所述手势语义信息还包括向前信息、向后信息、向左信息、向右信息、向上信息、向下信息、逆时针旋转信息和顺时针旋转信息；

在基本移动方向控制模式中，根据向前信息控制机器人按照预设步长向第一方向移动，根据向后信息控制机器人按照预设步长向第二方向移动，根据向左信息控制机器人按照预设步长向第三方向移动，根据向右信息控制机器人按照预设步长向第四方向移动，根据向上信息控制机器人按照预设步长向第五方向移动，根据向下信息控制机器人按照预设步长向第六方向移动；

在基本姿态角控制模式中，根据逆时针旋转信息或顺时针旋转信息按照预设步长调节机器人末端的横滚角，根据向左信息或向右信息按照预设步长调节机器人末端的偏转角，根据向上信息或向下信息按照预设步长调节机器人末端的俯仰角。

进一步，在任意移动方向控制模式中，从手势图像中提取食指的空间指向作为任意方向的指示；

设相机坐标系为X_CY_CZ_C，根据手部模型提取食指的关节，其中，提取到指尖B在相机坐标系中的三维坐标P_B＝(x_B,y_B,z_B)，提取到指根A在相机坐标系中的三维坐标P_A＝(x_A,y_A,z_A)；

根据指尖和指根两个关节的三维坐标确定一个方向向量S＝(cosα,cosβ,cosγ)，方向向量的方向为从指根指向指尖；

将相机坐标系中的方向向量转换至机器人基坐标系下，指示机器人末端沿方向向量S移动一个预设步长的距离Dist。

进一步，在任意姿态映射模式中，从手势图像中提取手部姿态作为任意姿态的映射；

设相机坐标系为X_CY_CZ_C，根据手部模型提取小指指根A、中指指尖B、食指指根C三个关节在相机坐标系中的三维坐标，分别表示为P_A＝(x_A,y_A,z_A)、P_B＝(x_B,y_B,z_B)、P_C＝(x_C,y_C,z_C)；

过中指指尖B作小指指根A和食指指根C连线的垂直线，交于点O，由A、B、C三个关节根据右手规则确定一个以O为原点的手部坐标系X_HY_HZ_H，用以表示手部姿态；手部姿态由手部坐标系在相机坐标系中的姿态表示；

确定当前手部姿态相对于预设的横滚角、偏转角、俯仰角这三个方位角上的旋转角度；

其中，横滚角α为手部坐标系Z_H轴在相机坐标系X_COZ_C平面上的投影Z′_H与Z_C轴的夹角；俯仰角β为手部坐标系Z_H轴在相机坐标系Y_COZ_C平面上的投影Z″_H与Z_C轴的夹角；偏转角γ为手部坐标系Y_H轴在相机坐标系X_COY_C平面上的投影Y′_H与Y_C轴的夹角。

进一步，所述手势语义信息还包括加速信息和减速信息；

当从手势图像识别到加速信息，根据加速信息增大位置移动或角度移动的步长；

当从手势图像识别到减速信息，根据减速信息减小位置移动或角度移动的步长。

进一步，所述手势语义信息还包括抓起信息、放下信息、暂停信息、确定信息以及双重确定信息；

当从手势图像识别到抓起信息，根据抓起信息控制机器人末端执行抓起操作；

当从手势图像识别到放下信息，根据放下信息控制机器人末端执行放下操作；

当从手势图像识别到暂停信息，根据暂停信息控制机器人末端执行暂停操作；

当从手势图像识别到确定信息，根据确定信息保存机器人末端在路径点上的位置和姿态信息；

当从手势图像识别到双重确定信息，根据双重确定信息确定并保存路径点之间的轨迹类型。

本发明所采用的另一技术方案是：

一种面向多自由度机器人的手势交互系统，包括：

视频获取模块，用于获取手势视频；

图像获取模块，用于从所述手势视频的视频帧中获取手势图像；

信息识别模块，用于根据手势图像识别出手势语义信息或手部姿态信息；

指令获取模块，用于基于当前的控制模式，根据手势语义信息或手部姿态信息获取控制机器人的控制指令；

所述手势语义信息用于基本移动方向或基本姿态角的控制；

本发明所采用的另一技术方案是：

一种面向多自由度机器人的手势交互装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过集成手部姿态估计和手势语义识别功能，实现对对机器人末端位置和姿态更加灵活的控制；另外，无需穿戴或手持传感器，用户交互体验更好。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种面向多自由度机器人的手势交互方法的示意图；

图2是本发明实施例中任意方向指示的示意图；

图3是本发明实施例中手部任意姿态映射的示意图；

图4是本发明实施例中手部姿态估计和手势语义识别网络结构示意图；

图5是本发明实施例中交互方式结构图；

图6是本发明实施例中交互策略示意图；

图7是本发明实施例中复杂轨迹重建过程示意图；

图8是本发明实施例中手势外形及其语义的示意图；

图9是本发明实施例中获取食指的空间指向的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，为了实现对交互方式的自然性和通用性、位置和姿态控制的快速性和精确性的综合平衡，本实施例提供一种面向多自由度机器人的手势交互方法，将手部姿态估计和手势语义识别功能高效集成，以手势这种自然的交互方式，采用快速控制与精细控制相结合的策略，实现对机器人末端位置和姿态的精确、快速控制，结合基于关键点采样的复杂轨迹重建策略，满足多自由度机器人在涉及复杂轨迹、多变姿态、狭窄空间、极限环境的工作需求。本实施例所提出的基于手势的交互方法同时具备如下特色：(1)无需任何穿戴或手持传感器，用户交互体验更好(2)只需使用静态手势，在展示手势时手部非常容易保持在传感器的有效感知范围内(3)手部姿态估计和手势分类识别算法只需输入RGB手势图像，可以摆脱对深度信息输入的依赖，只需采用普通RGB相机作为视觉传感器(4)兼顾机器人末端的位置和姿态控制(5)兼顾位置与姿态的快速控制和精细微调(6)手势语义涵盖了位置和姿态的快速控制与精细微调以及相关位姿信息的保存操作，示教全程无需手势以外交互方式的干预。

本实施例包含基于手部姿态和手势语义两种交互方式，通过手部姿态估计提取手部关节的三维坐标，用于任意移动方向指示和姿态映射；通过对手势进行分类实现手势语义识别，将手势语义用于基本移动方向和基本姿态角的精确控制。本实施例包含17种手势：向前、向后、向左、向右、向上、向下、任意方向、逆时针旋转、顺时针旋转、加速、减速、暂停、抓起、放下、切换、OK(即确定信息)、双重OK(即双重确定信息)。如图4所示，本实施例包含四种交互控制模式：基本移动方向控制模式、任意移动方向控制模式、基本姿态角控制模式、任意姿态映射模式。在“基本移动方向控制模式”下，“向前”、“向后”、“向左”、“向右”、“向上”、“向下”六种手势分别对应三个空间坐标轴的正、反方向。在“任意移动方向控制模式”下，通过手部姿态估计算法提取食指空间指向，用于指示移动方向。在这两种移动方向控制模式下，可以控制机器人沿指定的移动方向移动一个步长。在“基本姿态角控制模式”下，“逆时针旋转”、“顺时针旋转”、“向左”、“向右”、“向上”、“向下”六种手势分别对应横滚角、偏转角、俯仰角三个姿态角的增减调节，调节量为预先设定的角幅度。在“任意姿态映射模式”下，通过手部姿态估计算法提取手部姿态中三个姿态角，将其分别映射到机器人末端。“加速”手势用于加大移动的步长或旋转的角幅度，“减速”用于减少移动的步长或旋转的角幅度，当步长或角幅度较大时，可实现粗粒度的快速控制，当步长或角幅度较小时，可以实现精细控制。“切换”手势用于在四种交互控制模式之间进行切换。“OK”手势用于保存机器人末端在路径点上的位置和姿态信息。“双重OK”用于确定并保存路径点之间的轨迹类型(直线或圆弧)。交互方式与控制意图对应关系如图5所示。

为了实现机器人末端位姿控制的快速性和精确性的综合平衡，将交互控制过程划分为“快速控制”和“精细控制”两个阶段，如图6所示：当机器人末端离目标位置较远时，采用“快速控制”策略，使用手部姿态映射、较大的“移动步长”和“姿态角调节幅度”；当离目标位置较近时，采用“精细控制”策略，使用手势语义、较小的“移动步长”和“姿态角调节幅度”。通过“精细控制”对机器人末端的位置和姿态进行精细调节，使得机器人末端能进入相对狭窄的空间内执行相关的操作。具体地，通过“加速”手势增加位置移动或角度调节的步长，以达到快速控制的效果；通过“减速”手势减小位置移动或角度调节的步长，以达到精细控制的效果。

本实施例通过对手部姿态进行估计，提取手部21个关节的三维坐标，进而提取食指的空间指向和手部姿态，分别用于任意方向的指示和任意姿态的映射。

参见图2，将手部姿态用于任意移动方向指示的步骤包括：(1)设相机坐标系为X_CY_CZ_C，根据21关节的手部模型，食指上共包含4个关节(包括指尖)，提取指尖B在相机坐标系中的三维坐标P_B＝(x_B,y_B,z_B)、指根A(食指与手掌连接处)在相机坐标系中的三维坐标P_A＝(x_A,y_A,z_A)。(2)由指尖和指根两个关节的三维坐标确定一个方向向量S＝(cosα,cosβ,cosγ)，其方向为从指根指向指尖。(3)将相机坐标系中的方向向量转换至机器人基坐标系下，指示机器人末端沿方向向量S移动一个步长的距离Dist。设当前的位置为(x₀,y₀,z₀)，将一个步长的距离分解到三个坐标轴方向后，目标点位置(x_t,y_t,z_t)可表示为：

其中，图9为提取食指的多个空间指向的示意图。图2(a)为关节坐标提取的示意图，图2(b)为食指方向提取的示意图。

参见图3，将手部姿态用于机器人末端姿态直接映射的步骤包括：(1)设相机坐标系为X_CY_CZ_C，提取小指指根(点A)、中指指尖(点B)、食指指根(点C)三个关节在相机坐标系中的三维坐标，分别表示为P_A＝(x_A,y_A,z_A)、P_B＝(x_B,y_B,z_B)、P_c＝(x_C,y_c,z_C)。(2)过中指指尖B作小指指根A和食指指根C连线的垂直线，交于点O，由这三个关节根据右手规则确定一个以O为原点的手部坐标系X_HY_HZ_H，用以表示手部姿态。(3)手部姿态由手部坐标系在相机坐标系中的姿态表示，设定“手部坐标系三个坐标轴分别与相机坐标系三个坐标轴平行时的姿态”为手部的“默认姿态”。相应地，机器人末端姿态由末端执行器坐标系在机器人基坐标系中的姿态表示，设定“末端坐标系的三个坐标轴分别与基坐标系三个坐标轴平行时的姿态”为末端的“默认姿态”。(4)确定当前手部姿态，以图3为例，相对于其“默认姿态”在三个方位角(横滚角、偏转角、俯仰角)上的旋转角度：横滚角α为手部坐标系Z_H轴在相机坐标系X_COZ_C平面上的投影Z′_H与Z_C轴的夹角；俯仰角β为手部坐标系Z_H轴在相机坐标系Y_COZ_C平面上的投影Z″_H与Z_C轴的夹角；偏转角γ为手部坐标系Y_H轴在相机坐标系X_COY_C平面上的投影Y′_H与Y_C轴的夹角。各个姿态角的计算公式为：

其中

(5)驱动机器人末端相对于其“默认姿态”也在横滚角、俯仰角、偏转角上分别转动相应的角度α、β、γ，实现手部姿态到机器人末端姿态的直接映射。姿态映射在总体上可以描述为：

其中上标R、H分别表示机器人(Robot)和人手(Hand)的姿态，下标current、default分别表示当前姿态和默认姿态。图3(a)为关节坐标提取的示意图，图3(b)为手部坐标系构建的示意图。

本实施例采用基于关键点采样的轨迹重建策略对机器人进行复杂轨迹示教编程，通过对机器人末端在关键点的位置和姿态的精确控制实现对由这些点连接而成的复杂轨迹的精确控制，该策略基于以下事实：(1)现实生活中绝大多数物品的外形是由直线或圆弧组成的，通过对直线与圆弧的过渡点以及圆弧的中间点进行采样，采用“两点确定一条直线、三点确定一段圆弧”原则可确定物品外形；(2)绝大多数主流机器人系统的底层控制指令均包含对直线和圆弧轨迹的支持。本发明采用的手势交互系统以一种无间断的全程手势交互方式实现复杂轨迹的重建，并且轨迹数据无需任何后续处理。

本实施例采用的手势交互方式也具备良好的通用性：(1)无需与机器人本体直接接触，对机器人本体无特殊要求(比如可拖动)。(2)可通过视频监控单元获取环境信息，以遥控操作的方式实现在高温、高湿、高压、有毒等不适宜人类直接进入的极限环境中对固定或移动式机器人的交互控制。(3)通过对机器人末端位置和姿态的控制，结合具体机器人的运动学反解算法(多数主流机器人厂商均提供)，实现机器人的整体控制。

本实施例涉及基于手部姿态估计和手势语义识别两种交互方式，但并不是两种方式的简单叠加，而是有机融合，体现在：(1)基于手部姿态交互方式的快速性与基于语义交互方式的精确性可以互补；(2)通过使用迁移学习方法，利用经过训练的手部姿态估计网络的多尺度特征提取和多阶段特征融合能力，可以进一步提升手势语义识别的精度和鲁棒性。

本实施例提供一种面向多自由度机器人的手势交互方法，包括以下步骤：

视频采集单元采集用户展示手势的视频，将其传递给视觉计算单元；

所述视觉计算单元对手势视频进行处理，具体是：从输入的手势视频的视频帧中分割出固定尺寸的手势图像，对手势图像进行分类，根据预定义的手势图像与控制语义的对应关系，识别出手势图像所表示的控制语义，并且根据需要从手势图像中估计出手部21个关节位置的三维坐标，将识别出的手势语义信息和手部姿态信息传递给机器人控制指令生成单元；

所述机器人控制指令生成单元，对手势语义和手部姿态信息进行分析，选择将手势语义或者手部姿态转化为机器人控制指令，通过TCP连接，发送给机器人，同时保存当前接收的手势语义，以便下一步比较；

机器人执行机器人控制指令生成单元发送的指令，并通过TCP连接持续返回执行状态。

机器人运行状态监控单元通过多路视频从多个角度对机器人进行实时拍摄，向操作员反馈机器人运行状态。

进一步作为可选的实施方式，视频采集单元通过RGB相机采集用户展示手势的视频；视频采集时，用户手往前伸，做出相应手势。

进一步作为可选的实施方式，视觉计算单元对拍摄视频的处理过程，包括下述步骤：

S1、手势图像提取：从视频帧中心位置提取高和宽均为256像素的手势图像。

S2、手势图像理解：将手势图像输入“手势语义识别”深度神经网络实现手势的分类识别；或者将手势图像输入“手部姿态估计”深度神经网络，估计出手部21个关节位置的三维坐标。

进一步作为可选的实施方式，步骤S2具体包括下述步骤：

S21、设计手势外形及其对应语义，包括17种手势：向前、向后、向左、向右、向上、向下、任意方向、逆时针旋转、顺时针旋转、加速、减速、暂停、抓起、放下、切换、OK、双重OK，如图8所示。

S22、通过相机采集手势图像并标注类别，形成手势语义图像数据集。

S23、使用数据集对“手势语义识别”网络进行训练。

S24、将手势图像输入“手势语义识别”深度神经网络实现手势的分类，识别出手势语义；或者将手势图像输入“手部姿态估计”网络，估计出手部21个关节的三维坐标。

进一步作为可选的实施方式，机器人控制指令生成单元根据手势语义和手部姿态信息生成机器人控制指令，包括下述步骤：

S3、系统包含四种交互控制模式：基本移动方向控制模式、任意移动方向控制模式、基本姿态角控制模式、任意姿态映射模式。在“基本移动方向控制模式”下，“向前”、“向后”、“向左”、“向右”、“向上”、“向下”六种手势分别对应三个空间坐标轴的正、反方向。在“任意移动方向控制模式”下，通过手部姿态估计算法提取食指空间指向，用于指示移动方向。在这两种移动方向控制模式下，可以控制机器人沿指定的移动方向移动一个步长。在“基本姿态角控制模式”下，“逆时针旋转”、“顺时针旋转”、“向左”、“向右”、“向上”、“向下”六种手势分别对应横滚角、偏转角、俯仰角三个姿态角的增减调节，调节量为预先设定的角幅度。在“任意姿态映射模式”下，通过手部姿态估计算法提取手部姿态中三个姿态角，将其分别映射到机器人末端。“加速”手势用于加大移动的步长或旋转的角幅度，“减速”用于减少移动的步长或旋转的角幅度，当步长或角幅度较大时，可实现粗粒度的快速控制，当步长或角幅度较小时，可以实现精细控制。“切换”手势用于在这四种交互控制模式之间进行切换。“OK”手势用于保存机器人末端在路径点上的位置和姿态信息。“双重OK”用于确定并保存路径点之间的轨迹类型(直线或圆弧)。其他手势语义则按照表1的预定义功能实现相应的交互控制。

S4、将步骤S3判断出的用户控制意图，结合具体型号机器人的控制指令集，生成机器人位置、姿态控制指令，通过TCP连接发送给机器人。

表1手势语义及其交互意图

进一步作为可选的实施方式，机器人运行状态监控单元通过多路视频实时监控机器人运行状态，反馈机器人末端与目标位置和姿态的接近程度，以便操作员进行下一步操作。

参照图7，基于关键点采样的复杂轨迹重建的步骤，包括以下步骤：

S101、通过步长设置手势(“加速”、“减速”)将指令步长设置为10cm。

S102、通过“任意方向”手势，对手部进行姿态估计，提取出食指的空间指向，控制机器人末端沿食指指向从起始点移动一个步长10cm。

S103、通过视频反馈，观察末端与目标点1的接近程度。

S104、保持指令步长不变。

S105、调整食指指向，通过“任意方向”手势，控制机器人末端沿食指指向移动一个步长10cm。

S106、通过视频反馈，观察末端与目标点1的接近程度。

S107、通过“减速”手势将指令设置步长为2cm。

S108、调整食指指向，通过“任意方向”手势，控制机器人末端沿食指指向移动一个步长2cm。

S109、通过视频反馈，观察末端与目标点1的接近程度。

S1010、通过连续展示“减速”手势将指令设置步长为1mm，以实现细粒度定位。

S1011、展示“向左”移动的手势，识别手势语义，控制机器人末端向左移动一个步长1mm。

S1012、通过视频反馈，观察末端与目标点1的接近程度。

S1013、展示“向前”移动的手势，控制机器人末端向前移动一个步长1mm。

S1014、通过视频反馈，观察末端与目标点1的接近程度。

S1015、接近程度达到精度要求，展示“OK”手势，记录当前的位置和姿态信息。

S1016、通过与上述类似的若干步骤，将末端移动到目标点2附近，展示“OK”手势，记录当前位置的位置和姿态信息。

S1017、将末端移动到目标点3附近，展示“双重OK”手势，记录当前的位置和姿态信息，并记录目标点1、2、3三点确定一条圆弧。

S1018、将末端移动到目标点4附近，展示“双重OK”手势，记录当前的位置和姿态信息，并记录目标点3、4两点确定一条直线。

S1019、将末端移动到目标点5附近，展示“OK”手势，记录当前的位置和姿态信息。

S1020、将末端移动到目标点6附近，展示“双重OK”手势，记录当前的位置和姿态信息，并记录目标点4、5、6三点确定一条圆弧。

S1021、将末端移动到终点，发出结束示教指令，系统询问是否将目标点6与目标点1连接以产生闭合轨迹，若回答是则记录目标点6、1两点确定一条直线，若回答否，则直接结束。

经过上述步骤，形成了图7中黑色箭头所组成的采样轨迹，但这些轨迹不用保存，只需保存6个关键点的位置和姿态信息，将这6个关键点通过直线或圆弧连接起来，形成图7虚线所示的复杂轨迹。

本实施例还提供一种面向多自由度机器人的手势交互系统，包括：

视频获取模块，用于获取手势视频；

所述手势语义信息用于基本移动方向或基本姿态角的控制；

本实施例的一种面向多自由度机器人的手势交互系统，可执行本发明方法实施例所提供的一种面向多自由度机器人的手势交互方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本实施例还提供一种面向多自由度机器人的手势交互装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种面向多自由度机器人的手势交互装置，可执行本发明方法实施例所提供的一种面向多自由度机器人的手势交互方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上所述方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种面向多自由度机器人的手势交互方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种面向多自由度机器人的手势交互方法，其特征在于，包括以下步骤：

获取手势视频；

从所述手势视频的视频帧中获取手势图像；

根据手势图像识别出手势语义信息或手部姿态信息；

所述手势语义信息用于基本移动方向或基本姿态角的控制；

所述手部姿态信息用于任意移动方向的控制或任意姿态的映射；

所述控制模式包括基本移动方向控制模式、任意移动方向控制模式、基本姿态角控制模式和任意姿态映射模式；

所述手势语义信息中包括模式切换信息；当从手势图像识别到模式切换信息，根据模式切换信息切换控制模式；

在任意姿态映射模式中，从手势图像中提取手部姿态作为任意姿态的映射；设相机坐标系为X_CY_CZ_C，根据手部模型提取小指指根A、中指指尖B、食指指根C三个关节在相机坐标系中的三维坐标，分别表示为P_A＝(x_A,y_A,z_A)、

P_B＝(x_B,y_B,z_B)、P_C＝(x_C,y_C,z_C)；

其中，横滚角α为手部坐标系Z_H轴在相机坐标系X_COZ_C平面上的投影Z′_H与Z_C轴的夹角；俯仰角β为手部坐标系Z_H轴在相机坐标系Y_COZ_C平面上的投影Z"_H与Z_C轴的夹角；偏转角γ为手部坐标系Y_H轴在相机坐标系X_COY_C平面上的投影Y′_H与Y_C轴的夹角；

在任意移动方向控制模式中，从手势图像中提取食指的空间指向作为任意方向的指示；

根据指尖和指根两个关节的三维坐标确定一个方向向量S＝(cosα,cosβ,cosγ)，方向向量的方向为从指根指向指尖；其中，α为手部坐标系Z_H轴在相机坐标系X_COZ_C平面上的投影Z^′ _H与Z_C轴的夹角，β为手部坐标系Z_H轴在相机坐标系Y_COZ_C平面上的投影Z"_H与Z_C轴的夹角，γ为手部坐标系Y_H轴在相机坐标系X_COY_C平面上的投影Y_H ^′与Y_C轴的夹角；

将相机坐标系中的方向向量转换至机器人基坐标系下，指示机器人末端沿方向向量S移动一个预设步长的距离Dist；

其中，当机器人末端离目标位置较远时，通过手部姿态信息控制机器人；当机器人末端离目标位置较近时，通过手势语义信息控制机器人。

2.根据权利要求1所述的一种面向多自由度机器人的手势交互方法，其特征在于，所述手势语义信息还包括向前信息、向后信息、向左信息、向右信息、向上信息、向下信息、逆时针旋转信息和顺时针旋转信息；

3.根据权利要求1或2所述的一种面向多自由度机器人的手势交互方法，其特征在于，所述手势语义信息还包括加速信息和减速信息；

4.根据权利要求1或2所述的一种面向多自由度机器人的手势交互方法，其特征在于，所述手势语义信息还包括抓起信息、放下信息、暂停信息、确定信息以及双重确定信息；

当从手势图像识别到暂停信息，根据暂停信息控制机器人末端执行暂停操作；当从手势图像识别到确定信息，根据确定信息保存机器人末端在路径点上的位置和姿态信息；

5.一种面向多自由度机器人的手势交互系统，其特征在于，包括：

视频获取模块，用于获取手势视频；

所述手势语义信息用于基本移动方向或基本姿态角的控制；

在任意姿态映射模式中，从手势图像中提取手部姿态作为任意姿态的映射；设相机坐标系为X_CY_CZ_C，根据手部模型提取小指指根A、中指指尖B、食指指根C三个关节在相机坐标系中的三维坐标，分别表示为P_A＝(x_A,y_A,z_A)、P_B＝(x_B,y_B,z_B)、P_C＝(x_C,y_C,z_C)；

根据指尖和指根两个关节的三维坐标确定一个方向向量S＝(cosα,cosβ,cosγ)，方向向量的方向为从指根指向指尖；其中，α为手部坐标系Z_H轴在相机坐标系X_COZ_C平面上的投影Z′_H与Z_C轴的夹角，β为手部坐标系Z_H轴在相机坐标系Y_COZ_C平面上的投影Z"_H与Z_C轴的夹角，γ为手部坐标系Y_H轴在相机坐标系X_COY_C平面上的投影Y′_H与Y_C轴的夹角；

6.一种面向多自由度机器人的手势交互装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-4任一项所述方法。

7.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-4任一项所述方法。