CN105005769B

CN105005769B - 一种基于深度信息的手语识别方法

Info

Publication number: CN105005769B
Application number: CN201510398779.1A
Authority: CN
Inventors: 许宏吉; 曹海波; 刘琚; 党娟; 李石; 李文强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2015-07-08
Filing date: 2015-07-08
Publication date: 2018-05-15
Anticipated expiration: 2035-07-08
Also published as: CN105005769A

Abstract

本发明公开了一种基于深度信息的手语识别方法，包括：(1)单个手势的识别：将手语分为手形和运动轨迹，采用基于深度信息的多阈值手势分割，利用改进的SURF的算法获取手形的特征值，利用基于角速度和距离的运动轨迹特征获取运动轨迹的特征值，并将提取的手形的特征值及运动轨迹的特征值作为BP神经网络的输入，进行手势识别；(2)手势序列的校正：根据已经识别的手势，通过贝叶斯算法对未能正确识别或存在多义性的手势进行自动推理校正。本发明利用Kinect摄像头获取的深度信息进行手势分割，克服了基于视觉的传统手势分割因光照造成的干扰，提高了人机交互的自然性。利用改进的SURF算法，降低了计算量，提高了识别速度。

Description

一种基于深度信息的手语识别方法

技术领域

本发明涉及一种基于深度信息的手语识别方法，属于智能感知与智能计算技术领域。

背景技术

手语(sign language)是用手势比量动作，根据手势的变化模拟形象或者音节以构成一定意思或词语，它是听力障碍的人互相交际和交流思想的一种语言，它是“有声语言的重要辅助工具”，而对于听力障碍的人来说，它则是主要的交际工具。手语主要分为手指语和手势语。手指语是用手指的指示变化代表字母，按拼音顺序依次拼出词语的语言表达形式，有单手指语和双手指语之分。手势语是以手的动作和面部表情表达思想，进行交际交流。我国目前聋哑人的数量为2000多万，他们主要以手语进行交流，但与没有手语学习基础的人进行交流存在严重的障碍，所以研究一种智能、高效的手语识别方法尤为重要。

目前手语识别的方法主要是基于数据手套和基于计算机视觉。基于数据手套的方法要求用户佩戴特殊的手套，手套上的传感器将采集到的位置、速度等信息反馈给计算机进行手势识别。该方法的优点是可以精确地追踪目标的位置和轨迹，实时性强；缺点是设备昂贵，用户需要佩戴专用的手套,削弱了人机交互的自然性，所以难以在现实生活中推广使用。基于计算机视觉的方法对摄像机拍摄的图像或视频进行分析，分割目标区域，然后提取特征进行分类识别。该方法的优点是设备相对便宜，而且用户不需要佩戴专用的设备，便于在现实生活中推广使用。但该方法容易受到光照等因素的影响，而且在目标追踪和分割上要复杂很多，涉及到数字图像处理领域的诸多关键技术。

为了克服传统的手语识别方法存在的缺点，实现聋哑人之间、聋哑人与正常人之间的交流，我们有必要设计一种智能、高效、实用的手语识别系统。

发明内容

针对现有技术的不足，本发明公开了一种基于深度信息的手语识别方法；

本发明的目的在于利用Kinect摄像头可以获取用户深度数据和骨骼数据的优势，开发一种抗干扰能力强、便捷实用的手语识别方法。该方法包括：(1)单个手势的识别：将手语分为手形和运动轨迹，采用基于深度信息的多阈值手势分割对手势进行多阈值分割，然后利用改进的SURF的算法获取手形的特征值，利用基于角速度和距离的运动轨迹特征获取运动轨迹的特征值，并将提取的手形的特征值及运动轨迹的特征值作为BP神经网络的输入，进行手势识别；(2)手势序列的校正：根据上下文信息，即已经识别的手势，通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。

本发明的技术方案为：

术语解释：

BP(Back Propagation)神经网络，是1986年由Rumelhart和McCelland为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络，是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系，而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法，通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。

一种基于深度信息的手语识别方法，具体步骤包括：

(1)基于深度信息的多阈值手势分割：利用Kinect摄像头获取用户深度数据和骨骼数据，对手势进行多阈值分割，得到尺度变换后的右手的二值图；与此同时，分别提取右手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标；

(2)利用5×5窗口对步骤(1)中获取的右手的二值图进行中值滤波和形态学上的闭运算，即进行平滑处理，并利用近邻法提取手势轮廓；

(3)基于改进的SURF算法，获取手形的特征值；

(4)基于角速度和距离的运动轨迹特征提取：利用步骤(1)提取的右手、右肩的骨骼空间坐标，获取右手的运动角速度、右手与右肩的距离，即运动轨迹的特征值；

(5)将步骤(3)获取的手形的特征值、步骤(4)获取的运动轨迹的特征值作为BP神经网络的输入，进行手势识别；

(6)根据步骤(5)识别后的手势，通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。

根据本发明优选的，所述基于深度信息的多阈值手势分割，具体步骤包括：

a、利用Kinect摄像头获取的用户深度数据与PlayerIndexBitmask做与运算，PlayerIndexBitmask的默认值为7，得到用户索引值，根据用户索引值的不同，将人体与背景进行分割；

b、当有多个人体在Kinect摄像头的有效视距内时，Kinect摄像头的有效视距为1.2m-3.5m，选择阈值T对步骤a分割后的深度图像进一步分割，阈值T为2.5m-3.5m；

c、经过步骤b处理后的深度图像中，如在阈值T内仍有多个人体，计算每个人体的深度数据平均值，选择深度数据平均值最小的人体作为识别对象；

d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标，对所述识别对象的右手进行定位，该骨骼空间坐标系是右手螺旋的，以Kinect摄像头为原点，z轴与Kinect摄像头的朝向一致，y轴正半轴向上延伸，从Kinect摄像头的视角来看，x轴正半轴向左延伸；

对右手的骨骼空间坐标设定X、Y、Z方向阈值α、β、γ，α的取值范围为50mm-150mm，β的取值范围为100mm-150mm，γ的取值范围为50mm-100mm，分割出右手，最终获得右手的二值图；

e、在步骤d得到的右手的二值图中，定义右手为一个矩形，所述矩形为n×n，n取值为200mm-300mm，基于不变性，对所述右手进行尺度变换，尺度变换公式如式(Ⅰ)、式(Ⅱ)所示：

式(Ⅰ)、式(Ⅱ)中，W_r表示每个像素的大小；d表示右手与Kinect摄像头的实际距离；D_with表示二值图中的像素宽度，D_with的默认值为320mm；ω表示尺度变换后的右手范围。

根据本发明优选的，所述步骤a中，所述用户索引值由2个字节16位组成，其中，高13位表示用户至Kinect摄像头的距离，低3位表示用户索引值，将二进制用户索引值转换为十进制，值为0-7；用户索引值为0，该像素点为背景，若用户索引值为1到7，该像素点为人体。

根据本发明优选的，所述步骤(2)中利用近邻法提取手势轮廓，具体是指：

f、对平滑处理后深度图像中的每个像素点进行如下操作：如果一个白色点的8个相邻像素点全部为白色点，则该白色点为内部点；否则，则该白色点为轮廓点；

g、将步骤f得到的所有内部点设为背景点，完成手势轮廓的提取。

根据本发明优选的，所述步骤(3)中，基于改进的SURF算法，获取手形的特征值，具体步骤包括：

h、获取掌心位置，确定关键点：

①以步骤(1)获取的右手骨骼点的骨骼空间坐标为圆心，以步骤(2)提取的手势轮廓为边界作内切圆；

②将步骤①得到的内切圆向右手腕骨骼点方向移动；

③将步骤②所述内切圆与步骤(2)提取的手势轮廓的任三个面相切，获取多个内切圆，取所述多个内切圆中半径最大的内切圆，该内切圆圆心为掌心位置，即关键点；

i、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌心坐标，判断主方向：

求取右手食指坐标与掌心坐标的距离，若右手食指坐标与掌心坐标距离大于阈值δ，δ的取值范围为6cm-10cm，即右手食指伸直，则以右手食指坐标与右手腕坐标的方向向量逆时针旋转角度α为主方向；否则，即右手食指弯曲，则以右手腕坐标与掌心坐标的方向向量为主方向；角度α是右手食指坐标和右手腕坐标的方向向量与右手骨骼点坐标和右手腕坐标的方向向量的夹角；

j、以步骤h获取的关键点为核心，以步骤i获取的主方向为主方向，计算特征值：

④取边长为20s*20s的正方形区域，s是指关键点所在的尺度，将该正方形区域划分为4*4，共16个子区域；

⑤在步骤④得到的每个子区域内，计算Harr小波响应d_x、d_y；

⑥通过高斯函数进行加权，形成4*4*4＝64维的手形的特征向量，加权公式如式(Ⅲ)所示：

C＝I×(Σd_x,Σd_y,Σ|d_x|,Σ|d_y|) (Ⅲ)

式(Ⅲ)中，C表示四维向量；I表示高斯加权系数；Σd_x表示水平方向值之和；Σd_y表示垂直方向值之和；Σ|d_x|表示水平方向绝对值之和；Σ|d_y|表示垂直方向绝对值之和。

根据本发明优选的，所述步骤(4)中，基于角速度与距离的运动轨迹的特征提取，具体步骤包括以下步骤：

k、利用Kinect摄像头获取的右手及右肩的骨骼空间坐标，分别计算右肩和右手的向量与XOZ平面的夹角θ₁、右肩和右手的向量在XOZ平面的投影与X轴的夹角θ₂；

l、利用步骤k得到夹角θ₁、θ₂，分别计算右手骨骼点运动的角速度ω₁、ω₂，计算公式如式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)所示：

式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中，右肩的坐标为(x₁，y₁，z₁)，右手的坐标为(x₂，y₂，z₂)，i表示图像帧数，i＝1,2，3....，t_i表示获取第i帧图像的时间，t_i-1表示获取第i-1帧图像的时间，表示在t_i时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i-1时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，表示在t_i-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，Δt表获取第i图像与第i-1帧图像的时间间隔；

m、计算右手与右肩的距离d，计算公式如式(Ⅷ)所示：

根据本发明优选的，步骤(6)中，所述贝叶斯算法如式(Ⅸ)所示：

I＝P(A|B)×P(B) (Ⅸ)

式(Ⅸ)中，I表示后验概率，P(B)表示先验概率，P(A|B)表示调整因子，A表示上下文信息，即已经识别出的手势，B表示未能正确识别或者存在多义性的手势。

本发明的有益效果为：

(1)利用Kinect摄像头获取的深度信息进行手势分割，克服了基于视觉的传统的手势分割因光照造成的干扰，同时也提高了人机交互的自然性。

(2)与传统的二维图像相比，Kinect摄像头可以获取深度数据，大大丰富了手语识别的数量，提高了识别的正确率。

(3)利用改进的SURF算法，进行手形的特征值提取，降低了计算量，提高了识别速度。

附图说明

图1为本发明基于深度信息的手语识别方法的流程示意图；

图2为本发明基于深度信息的多阈值手势分割流程示意图；

图3为本发明骨骼空间坐标系示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于深度信息的手语识别方法，具体步骤包括：

(3)基于改进的SURF算法，获取手形的特征值；

基于深度信息的手语识别方法的流程示意图如图1所示。

实施例2

根据实施例1所述一种基于深度信息的手语识别方法，其区别在于，所述基于深度信息的多阈值手势分割，具体步骤包括：

d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标，对所述识别对象的右手进行定位，该骨骼空间坐标系是右手螺旋的，以Kinect摄像头为原点，z轴与Kinect摄像头的朝向一致，y轴正半轴向上延伸，从Kinect摄像头的视角来看，x轴正半轴向左延伸；骨骼空间坐标系如图3所示。

e、在步骤d得到的右手的二值图中，定义右手为一个矩形，所述矩形为n×n，n取值为200mm，基于不变性，对所述右手进行尺度变换，尺度变换公式如式(Ⅰ)、式(Ⅱ)所示：

所述基于深度信息的多阈值手势分割流程示意图如图2所示。

实施例3

根据实施例1所述一种基于深度信息的手语识别方法，其区别在于，所述步骤a中，所述用户索引值由2个字节16位组成，其中，高13位表示用户至Kinect摄像头的距离，低3位表示用户索引值，将二进制用户索引值转换为十进制，值为0-7；用户索引值为0，该像素点为背景，若用户索引值为1到7，该像素点为人体。

实施例4

根据实施例1所述一种基于深度信息的手语识别方法，其区别在于，所述步骤(2)中利用近邻法提取手势轮廓，具体是指：

实施例5

根据实施例1所述一种基于深度信息的手语识别方法，其区别在于，所述步骤(3)中，基于改进的SURF算法，获取手形的特征值，具体步骤包括：

h、获取掌心位置，确定关键点：

②将步骤①得到的内切圆向右手腕骨骼点方向移动；

ii、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌心坐标，判断主方向：

⑤在步骤④得到的每个子区域内，计算Harr小波响应d_x、d_y；

C＝I×(Σd_x,Σd_y,Σ|d_x|,Σ|d_y|) (Ⅲ)

实施例6

根据实施例2所述一种基于深度信息的手语识别方法，其区别在于，基于角速度与距离的运动轨迹的特征提取，具体步骤包括以下步骤：

式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中，右肩的坐标为(x₁，y₁，z₁)，右手的坐标为(x₂，y₂，z₂)，i表示图像帧数，i＝1,2,3....，t_i表示获取第i帧图像的时间，t_i-1表示获取第i-1帧图像的时间，表示在t_i时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i-1时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，表示在t_i-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，Δt表获取第i图像与第i-1帧图像的时间间隔；

m、计算右手与右肩的距离d，计算公式如式(Ⅷ)所示：

实施例7

根据实施例1所述一种基于深度信息的手语识别方法，其区别在于，所述贝叶斯算法如式(Ⅸ)所示：

I＝P(A|B)×P(B) (Ⅸ)

Claims

1.一种基于深度信息的手语识别方法，其特征在于，具体步骤包括：

(1)基于深度信息的多阈值手势分割：利用Kinect摄像头获取用户深度数据和骨骼数据，对手势进行多阈值分割，得到尺度变换后的右手的二值图；与此同时，分别提取右手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标；具体步骤包括：

<mrow> <mi>&omega;</mi> <mo>=</mo> <mfrac> <mi>n</mi> <msub> <mi>W</mi> <mi>r</mi> </msub> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅰ)、式(Ⅱ)中，W_r表示每个像素的大小；d表示右手与Kinect摄像头的实际距离；D_with表示二值图中的像素宽度，D_with的默认值为320mm；ω表示尺度变换后的右手范围；

(3)基于改进的SURF算法，获取手形的特征值；

2.根据权利要求1所述的一种基于深度信息的手语识别方法，其特征在于，所述步骤a中，所述用户索引值由2个字节16位组成，其中，高13位表示用户至Kinect摄像头的距离，低3位表示用户索引值，将二进制用户索引值转换为十进制，值为0-7；用户索引值为0，该像素点为背景，若用户索引值为1到7，该像素点为人体。

3.根据权利要求1所述的一种基于深度信息的手语识别方法，其特征在于，所述步骤(2)中利用近邻法提取手势轮廓，具体是指：

4.根据权利要求1所述的一种基于深度信息的手语识别方法，其特征在于，所述步骤(3)中，基于改进的SURF算法，获取手形的特征值，具体步骤包括：

h、获取掌心位置，确定关键点：

②将步骤①得到的内切圆向右手腕骨骼点方向移动；

⑤在步骤④得到的每个子区域内，计算Harr小波响应d_x、d_y；

C＝I×(∑d_x,∑d_y,∑|d_x|,∑|d_y|) (Ⅲ)

式(Ⅲ)中，C表示四维向量；I表示高斯加权系数；∑d_x表示水平方向值之和；∑d_y表示垂直方向值之和；∑|d_x|表示水平方向绝对值之和；∑|d_y|表示垂直方向绝对值之和。

5.根据权利要求1所述的一种基于深度信息的手语识别方法，其特征在于，所述步骤(4)中，基于角速度与距离的运动轨迹的特征提取，具体步骤包括以下步骤：

<mrow> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <mo>=</mo> <mi>a</mi> <mi>r</mi> <mi>c</mi> <mi>t</mi> <mi>a</mi> <mi>n</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>y</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>I</mi> <mi>V</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <mo>=</mo> <mi>arctan</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>z</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>z</mi> <mn>1</mn> </msub> </mrow> <mrow> <msub> <mi>x</mi> <mn>2</mn> </msub> <mo>-</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>V</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&omega;</mi> <mn>1</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&theta;</mi> <mn>1</mn> <msub> <mi>t</mi> <mi>i</mi> </msub> </msubsup> <mo>-</mo> <msubsup> <mi>&theta;</mi> <mn>1</mn> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </msubsup> </mrow> <mrow> <mi>&Delta;</mi> <mi>t</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&omega;</mi> <mn>2</mn> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&theta;</mi> <mn>2</mn> <msub> <mi>t</mi> <mi>i</mi> </msub> </msubsup> <mo>-</mo> <msubsup> <mi>&theta;</mi> <mn>2</mn> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> </msubsup> </mrow> <mrow> <mi>&Delta;</mi> <mi>t</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mi>V</mi> <mi>I</mi> <mi>I</mi> <mo>)</mo> </mrow> </mrow>

式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中，右肩的坐标为(x₁，y₁，z₁)，右手的坐标为(x₂，y₂，z₂)，i表示图像帧数，i＝1,2,3....，t_i表示获取第i帧图像的时间，t_i-1表示获取第i-1帧图像的时间，表示在t_i时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i-1时刻右肩和右手的向量与XOZ平面的夹角，表示在t_i时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，表示在t_i-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角，△t表获取第i图像与第i-1帧图像的时间间隔；

m、计算右手与右肩的距离d，计算公式如式(Ⅷ)所示：

6.根据权利要求1所述的一种基于深度信息的手语识别方法，其特征在于，步骤(6)中，所述贝叶斯算法如式(Ⅸ)所示：

I＝P(A|B)×P(B) (Ⅸ)