CN105005769B - 一种基于深度信息的手语识别方法 - Google Patents
一种基于深度信息的手语识别方法 Download PDFInfo
- Publication number
- CN105005769B CN105005769B CN201510398779.1A CN201510398779A CN105005769B CN 105005769 B CN105005769 B CN 105005769B CN 201510398779 A CN201510398779 A CN 201510398779A CN 105005769 B CN105005769 B CN 105005769B
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- right hand
- formula
- gesture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/107—Static hand or arm
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种基于深度信息的手语识别方法,包括:(1)单个手势的识别:将手语分为手形和运动轨迹,采用基于深度信息的多阈值手势分割,利用改进的SURF的算法获取手形的特征值,利用基于角速度和距离的运动轨迹特征获取运动轨迹的特征值,并将提取的手形的特征值及运动轨迹的特征值作为BP神经网络的输入,进行手势识别;(2)手势序列的校正:根据已经识别的手势,通过贝叶斯算法对未能正确识别或存在多义性的手势进行自动推理校正。本发明利用Kinect摄像头获取的深度信息进行手势分割,克服了基于视觉的传统手势分割因光照造成的干扰,提高了人机交互的自然性。利用改进的SURF算法,降低了计算量,提高了识别速度。
Description
技术领域
本发明涉及一种基于深度信息的手语识别方法,属于智能感知与智能计算技术领域。
背景技术
手语(sign language)是用手势比量动作,根据手势的变化模拟形象或者音节以构成一定意思或词语,它是听力障碍的人互相交际和交流思想的一种语言,它是“有声语言的重要辅助工具”,而对于听力障碍的人来说,它则是主要的交际工具。手语主要分为手指语和手势语。手指语是用手指的指示变化代表字母,按拼音顺序依次拼出词语的语言表达形式,有单手指语和双手指语之分。手势语是以手的动作和面部表情表达思想,进行交际交流。我国目前聋哑人的数量为2000多万,他们主要以手语进行交流,但与没有手语学习基础的人进行交流存在严重的障碍,所以研究一种智能、高效的手语识别方法尤为重要。
目前手语识别的方法主要是基于数据手套和基于计算机视觉。基于数据手套的方法要求用户佩戴特殊的手套,手套上的传感器将采集到的位置、速度等信息反馈给计算机进行手势识别。该方法的优点是可以精确地追踪目标的位置和轨迹,实时性强;缺点是设备昂贵,用户需要佩戴专用的手套,削弱了人机交互的自然性,所以难以在现实生活中推广使用。基于计算机视觉的方法对摄像机拍摄的图像或视频进行分析,分割目标区域,然后提取特征进行分类识别。该方法的优点是设备相对便宜,而且用户不需要佩戴专用的设备,便于在现实生活中推广使用。但该方法容易受到光照等因素的影响,而且在目标追踪和分割上要复杂很多,涉及到数字图像处理领域的诸多关键技术。
为了克服传统的手语识别方法存在的缺点,实现聋哑人之间、聋哑人与正常人之间的交流,我们有必要设计一种智能、高效、实用的手语识别系统。
发明内容
针对现有技术的不足,本发明公开了一种基于深度信息的手语识别方法;
本发明的目的在于利用Kinect摄像头可以获取用户深度数据和骨骼数据的优势,开发一种抗干扰能力强、便捷实用的手语识别方法。该方法包括:(1)单个手势的识别:将手语分为手形和运动轨迹,采用基于深度信息的多阈值手势分割对手势进行多阈值分割,然后利用改进的SURF的算法获取手形的特征值,利用基于角速度和距离的运动轨迹特征获取运动轨迹的特征值,并将提取的手形的特征值及运动轨迹的特征值作为BP神经网络的输入,进行手势识别;(2)手势序列的校正:根据上下文信息,即已经识别的手势,通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。
本发明的技术方案为:
术语解释:
BP(Back Propagation)神经网络,是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐层(hidden layer)和输出层(output layer)。
一种基于深度信息的手语识别方法,具体步骤包括:
(1)基于深度信息的多阈值手势分割:利用Kinect摄像头获取用户深度数据和骨骼数据,对手势进行多阈值分割,得到尺度变换后的右手的二值图;与此同时,分别提取右手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标;
(2)利用5×5窗口对步骤(1)中获取的右手的二值图进行中值滤波和形态学上的闭运算,即进行平滑处理,并利用近邻法提取手势轮廓;
(3)基于改进的SURF算法,获取手形的特征值;
(4)基于角速度和距离的运动轨迹特征提取:利用步骤(1)提取的右手、右肩的骨骼空间坐标,获取右手的运动角速度、右手与右肩的距离,即运动轨迹的特征值;
(5)将步骤(3)获取的手形的特征值、步骤(4)获取的运动轨迹的特征值作为BP神经网络的输入,进行手势识别;
(6)根据步骤(5)识别后的手势,通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。
根据本发明优选的,所述基于深度信息的多阈值手势分割,具体步骤包括:
a、利用Kinect摄像头获取的用户深度数据与PlayerIndexBitmask做与运算,PlayerIndexBitmask的默认值为7,得到用户索引值,根据用户索引值的不同,将人体与背景进行分割;
b、当有多个人体在Kinect摄像头的有效视距内时,Kinect摄像头的有效视距为1.2m-3.5m,选择阈值T对步骤a分割后的深度图像进一步分割,阈值T为2.5m-3.5m;
c、经过步骤b处理后的深度图像中,如在阈值T内仍有多个人体,计算每个人体的深度数据平均值,选择深度数据平均值最小的人体作为识别对象;
d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标,对所述识别对象的右手进行定位,该骨骼空间坐标系是右手螺旋的,以Kinect摄像头为原点,z轴与Kinect摄像头的朝向一致,y轴正半轴向上延伸,从Kinect摄像头的视角来看,x轴正半轴向左延伸;
对右手的骨骼空间坐标设定X、Y、Z方向阈值α、β、γ,α的取值范围为50mm-150mm,β的取值范围为100mm-150mm,γ的取值范围为50mm-100mm,分割出右手,最终获得右手的二值图;
e、在步骤d得到的右手的二值图中,定义右手为一个矩形,所述矩形为n×n,n取值为200mm-300mm,基于不变性,对所述右手进行尺度变换,尺度变换公式如式(Ⅰ)、式(Ⅱ)所示:
式(Ⅰ)、式(Ⅱ)中,Wr表示每个像素的大小;d表示右手与Kinect摄像头的实际距离;Dwith表示二值图中的像素宽度,Dwith的默认值为320mm;ω表示尺度变换后的右手范围。
根据本发明优选的,所述步骤a中,所述用户索引值由2个字节16位组成,其中,高13位表示用户至Kinect摄像头的距离,低3位表示用户索引值,将二进制用户索引值转换为十进制,值为0-7;用户索引值为0,该像素点为背景,若用户索引值为1到7,该像素点为人体。
根据本发明优选的,所述步骤(2)中利用近邻法提取手势轮廓,具体是指:
f、对平滑处理后深度图像中的每个像素点进行如下操作:如果一个白色点的8个相邻像素点全部为白色点,则该白色点为内部点;否则,则该白色点为轮廓点;
g、将步骤f得到的所有内部点设为背景点,完成手势轮廓的提取。
根据本发明优选的,所述步骤(3)中,基于改进的SURF算法,获取手形的特征值,具体步骤包括:
h、获取掌心位置,确定关键点:
①以步骤(1)获取的右手骨骼点的骨骼空间坐标为圆心,以步骤(2)提取的手势轮廓为边界作内切圆;
②将步骤①得到的内切圆向右手腕骨骼点方向移动;
③将步骤②所述内切圆与步骤(2)提取的手势轮廓的任三个面相切,获取多个内切圆,取所述多个内切圆中半径最大的内切圆,该内切圆圆心为掌心位置,即关键点;
i、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌心坐标,判断主方向:
求取右手食指坐标与掌心坐标的距离,若右手食指坐标与掌心坐标距离大于阈值δ,δ的取值范围为6cm-10cm,即右手食指伸直,则以右手食指坐标与右手腕坐标的方向向量逆时针旋转角度α为主方向;否则,即右手食指弯曲,则以右手腕坐标与掌心坐标的方向向量为主方向;角度α是右手食指坐标和右手腕坐标的方向向量与右手骨骼点坐标和右手腕坐标的方向向量的夹角;
j、以步骤h获取的关键点为核心,以步骤i获取的主方向为主方向,计算特征值:
④取边长为20s*20s的正方形区域,s是指关键点所在的尺度,将该正方形区域划分为4*4,共16个子区域;
⑤在步骤④得到的每个子区域内,计算Harr小波响应dx、dy;
⑥通过高斯函数进行加权,形成4*4*4=64维的手形的特征向量,加权公式如式(Ⅲ)所示:
C=I×(Σdx,Σdy,Σ|dx|,Σ|dy|) (Ⅲ)
式(Ⅲ)中,C表示四维向量;I表示高斯加权系数;Σdx表示水平方向值之和;Σdy表示垂直方向值之和;Σ|dx|表示水平方向绝对值之和;Σ|dy|表示垂直方向绝对值之和。
根据本发明优选的,所述步骤(4)中,基于角速度与距离的运动轨迹的特征提取,具体步骤包括以下步骤:
k、利用Kinect摄像头获取的右手及右肩的骨骼空间坐标,分别计算右肩和右手的向量与XOZ平面的夹角θ1、右肩和右手的向量在XOZ平面的投影与X轴的夹角θ2;
l、利用步骤k得到夹角θ1、θ2,分别计算右手骨骼点运动的角速度ω1、ω2,计算公式如式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)所示:
式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中,右肩的坐标为(x1,y1,z1),右手的坐标为(x2,y2,z2),i表示图像帧数,i=1,2,3....,ti表示获取第i帧图像的时间,ti-1表示获取第i-1帧图像的时间,表示在ti时刻右肩和右手的向量与XOZ平面的夹角,表示在ti-1时刻右肩和右手的向量与XOZ平面的夹角,表示在ti时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,表示在ti-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,Δt表获取第i图像与第i-1帧图像的时间间隔;
m、计算右手与右肩的距离d,计算公式如式(Ⅷ)所示:
根据本发明优选的,步骤(6)中,所述贝叶斯算法如式(Ⅸ)所示:
I=P(A|B)×P(B) (Ⅸ)
式(Ⅸ)中,I表示后验概率,P(B)表示先验概率,P(A|B)表示调整因子,A表示上下文信息,即已经识别出的手势,B表示未能正确识别或者存在多义性的手势。
本发明的有益效果为:
(1)利用Kinect摄像头获取的深度信息进行手势分割,克服了基于视觉的传统的手势分割因光照造成的干扰,同时也提高了人机交互的自然性。
(2)与传统的二维图像相比,Kinect摄像头可以获取深度数据,大大丰富了手语识别的数量,提高了识别的正确率。
(3)利用改进的SURF算法,进行手形的特征值提取,降低了计算量,提高了识别速度。
附图说明
图1为本发明基于深度信息的手语识别方法的流程示意图;
图2为本发明基于深度信息的多阈值手势分割流程示意图;
图3为本发明骨骼空间坐标系示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于深度信息的手语识别方法,具体步骤包括:
(1)基于深度信息的多阈值手势分割:利用Kinect摄像头获取用户深度数据和骨骼数据,对手势进行多阈值分割,得到尺度变换后的右手的二值图;与此同时,分别提取右手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标;
(2)利用5×5窗口对步骤(1)中获取的右手的二值图进行中值滤波和形态学上的闭运算,即进行平滑处理,并利用近邻法提取手势轮廓;
(3)基于改进的SURF算法,获取手形的特征值;
(4)基于角速度和距离的运动轨迹特征提取:利用步骤(1)提取的右手、右肩的骨骼空间坐标,获取右手的运动角速度、右手与右肩的距离,即运动轨迹的特征值;
(5)将步骤(3)获取的手形的特征值、步骤(4)获取的运动轨迹的特征值作为BP神经网络的输入,进行手势识别;
(6)根据步骤(5)识别后的手势,通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。
基于深度信息的手语识别方法的流程示意图如图1所示。
实施例2
根据实施例1所述一种基于深度信息的手语识别方法,其区别在于,所述基于深度信息的多阈值手势分割,具体步骤包括:
a、利用Kinect摄像头获取的用户深度数据与PlayerIndexBitmask做与运算,PlayerIndexBitmask的默认值为7,得到用户索引值,根据用户索引值的不同,将人体与背景进行分割;
b、当有多个人体在Kinect摄像头的有效视距内时,Kinect摄像头的有效视距为1.2m-3.5m,选择阈值T对步骤a分割后的深度图像进一步分割,阈值T为2.5m-3.5m;
c、经过步骤b处理后的深度图像中,如在阈值T内仍有多个人体,计算每个人体的深度数据平均值,选择深度数据平均值最小的人体作为识别对象;
d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标,对所述识别对象的右手进行定位,该骨骼空间坐标系是右手螺旋的,以Kinect摄像头为原点,z轴与Kinect摄像头的朝向一致,y轴正半轴向上延伸,从Kinect摄像头的视角来看,x轴正半轴向左延伸;骨骼空间坐标系如图3所示。
对右手的骨骼空间坐标设定X、Y、Z方向阈值α、β、γ,α的取值范围为50mm-150mm,β的取值范围为100mm-150mm,γ的取值范围为50mm-100mm,分割出右手,最终获得右手的二值图;
e、在步骤d得到的右手的二值图中,定义右手为一个矩形,所述矩形为n×n,n取值为200mm,基于不变性,对所述右手进行尺度变换,尺度变换公式如式(Ⅰ)、式(Ⅱ)所示:
式(Ⅰ)、式(Ⅱ)中,Wr表示每个像素的大小;d表示右手与Kinect摄像头的实际距离;Dwith表示二值图中的像素宽度,Dwith的默认值为320mm;ω表示尺度变换后的右手范围。
所述基于深度信息的多阈值手势分割流程示意图如图2所示。
实施例3
根据实施例1所述一种基于深度信息的手语识别方法,其区别在于,所述步骤a中,所述用户索引值由2个字节16位组成,其中,高13位表示用户至Kinect摄像头的距离,低3位表示用户索引值,将二进制用户索引值转换为十进制,值为0-7;用户索引值为0,该像素点为背景,若用户索引值为1到7,该像素点为人体。
实施例4
根据实施例1所述一种基于深度信息的手语识别方法,其区别在于,所述步骤(2)中利用近邻法提取手势轮廓,具体是指:
f、对平滑处理后深度图像中的每个像素点进行如下操作:如果一个白色点的8个相邻像素点全部为白色点,则该白色点为内部点;否则,则该白色点为轮廓点;
g、将步骤f得到的所有内部点设为背景点,完成手势轮廓的提取。
实施例5
根据实施例1所述一种基于深度信息的手语识别方法,其区别在于,所述步骤(3)中,基于改进的SURF算法,获取手形的特征值,具体步骤包括:
h、获取掌心位置,确定关键点:
①以步骤(1)获取的右手骨骼点的骨骼空间坐标为圆心,以步骤(2)提取的手势轮廓为边界作内切圆;
②将步骤①得到的内切圆向右手腕骨骼点方向移动;
③将步骤②所述内切圆与步骤(2)提取的手势轮廓的任三个面相切,获取多个内切圆,取所述多个内切圆中半径最大的内切圆,该内切圆圆心为掌心位置,即关键点;
ii、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌心坐标,判断主方向:
求取右手食指坐标与掌心坐标的距离,若右手食指坐标与掌心坐标距离大于阈值δ,δ的取值范围为6cm-10cm,即右手食指伸直,则以右手食指坐标与右手腕坐标的方向向量逆时针旋转角度α为主方向;否则,即右手食指弯曲,则以右手腕坐标与掌心坐标的方向向量为主方向;角度α是右手食指坐标和右手腕坐标的方向向量与右手骨骼点坐标和右手腕坐标的方向向量的夹角;
j、以步骤h获取的关键点为核心,以步骤i获取的主方向为主方向,计算特征值:
④取边长为20s*20s的正方形区域,s是指关键点所在的尺度,将该正方形区域划分为4*4,共16个子区域;
⑤在步骤④得到的每个子区域内,计算Harr小波响应dx、dy;
⑥通过高斯函数进行加权,形成4*4*4=64维的手形的特征向量,加权公式如式(Ⅲ)所示:
C=I×(Σdx,Σdy,Σ|dx|,Σ|dy|) (Ⅲ)
式(Ⅲ)中,C表示四维向量;I表示高斯加权系数;Σdx表示水平方向值之和;Σdy表示垂直方向值之和;Σ|dx|表示水平方向绝对值之和;Σ|dy|表示垂直方向绝对值之和。
实施例6
根据实施例2所述一种基于深度信息的手语识别方法,其区别在于,基于角速度与距离的运动轨迹的特征提取,具体步骤包括以下步骤:
k、利用Kinect摄像头获取的右手及右肩的骨骼空间坐标,分别计算右肩和右手的向量与XOZ平面的夹角θ1、右肩和右手的向量在XOZ平面的投影与X轴的夹角θ2;
l、利用步骤k得到夹角θ1、θ2,分别计算右手骨骼点运动的角速度ω1、ω2,计算公式如式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)所示:
式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中,右肩的坐标为(x1,y1,z1),右手的坐标为(x2,y2,z2),i表示图像帧数,i=1,2,3....,ti表示获取第i帧图像的时间,ti-1表示获取第i-1帧图像的时间,表示在ti时刻右肩和右手的向量与XOZ平面的夹角,表示在ti-1时刻右肩和右手的向量与XOZ平面的夹角,表示在ti时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,表示在ti-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,Δt表获取第i图像与第i-1帧图像的时间间隔;
m、计算右手与右肩的距离d,计算公式如式(Ⅷ)所示:
实施例7
根据实施例1所述一种基于深度信息的手语识别方法,其区别在于,所述贝叶斯算法如式(Ⅸ)所示:
I=P(A|B)×P(B) (Ⅸ)
式(Ⅸ)中,I表示后验概率,P(B)表示先验概率,P(A|B)表示调整因子,A表示上下文信息,即已经识别出的手势,B表示未能正确识别或者存在多义性的手势。
Claims (6)
1.一种基于深度信息的手语识别方法,其特征在于,具体步骤包括:
(1)基于深度信息的多阈值手势分割:利用Kinect摄像头获取用户深度数据和骨骼数据,对手势进行多阈值分割,得到尺度变换后的右手的二值图;与此同时,分别提取右手、右手食指、右手手腕及右肩四个骨骼点的骨骼空间坐标;具体步骤包括:
a、利用Kinect摄像头获取的用户深度数据与PlayerIndexBitmask做与运算,PlayerIndexBitmask的默认值为7,得到用户索引值,根据用户索引值的不同,将人体与背景进行分割;
b、当有多个人体在Kinect摄像头的有效视距内时,Kinect摄像头的有效视距为1.2m-3.5m,选择阈值T对步骤a分割后的深度图像进一步分割,阈值T为2.5m-3.5m;
c、经过步骤b处理后的深度图像中,如在阈值T内仍有多个人体,计算每个人体的深度数据平均值,选择深度数据平均值最小的人体作为识别对象;
d、利用Kinect摄像头获取的所述识别对象的右手骨骼点的骨骼空间坐标,对所述识别对象的右手进行定位,该骨骼空间坐标系是右手螺旋的,以Kinect摄像头为原点,z轴与Kinect摄像头的朝向一致,y轴正半轴向上延伸,从Kinect摄像头的视角来看,x轴正半轴向左延伸;
对右手的骨骼空间坐标设定X、Y、Z方向阈值α、β、γ,α的取值范围为50mm-150mm,β的取值范围为100mm-150mm,γ的取值范围为50mm-100mm,分割出右手,最终获得右手的二值图;
e、在步骤d得到的右手的二值图中,定义右手为一个矩形,所述矩形为n×n,n取值为200mm-300mm,基于不变性,对所述右手进行尺度变换,尺度变换公式如式(Ⅰ)、式(Ⅱ)所示:
<mrow>
<mi>&omega;</mi>
<mo>=</mo>
<mfrac>
<mi>n</mi>
<msub>
<mi>W</mi>
<mi>r</mi>
</msub>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>I</mi>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
式(Ⅰ)、式(Ⅱ)中,Wr表示每个像素的大小;d表示右手与Kinect摄像头的实际距离;Dwith表示二值图中的像素宽度,Dwith的默认值为320mm;ω表示尺度变换后的右手范围;
(2)利用5×5窗口对步骤(1)中获取的右手的二值图进行中值滤波和形态学上的闭运算,即进行平滑处理,并利用近邻法提取手势轮廓;
(3)基于改进的SURF算法,获取手形的特征值;
(4)基于角速度和距离的运动轨迹特征提取:利用步骤(1)提取的右手、右肩的骨骼空间坐标,获取右手的运动角速度、右手与右肩的距离,即运动轨迹的特征值;
(5)将步骤(3)获取的手形的特征值、步骤(4)获取的运动轨迹的特征值作为BP神经网络的输入,进行手势识别;
(6)根据步骤(5)识别后的手势,通过贝叶斯算法对未能正确识别或者存在多义性的手势进行自动推理校正。
2.根据权利要求1所述的一种基于深度信息的手语识别方法,其特征在于,所述步骤a中,所述用户索引值由2个字节16位组成,其中,高13位表示用户至Kinect摄像头的距离,低3位表示用户索引值,将二进制用户索引值转换为十进制,值为0-7;用户索引值为0,该像素点为背景,若用户索引值为1到7,该像素点为人体。
3.根据权利要求1所述的一种基于深度信息的手语识别方法,其特征在于,所述步骤(2)中利用近邻法提取手势轮廓,具体是指:
f、对平滑处理后深度图像中的每个像素点进行如下操作:如果一个白色点的8个相邻像素点全部为白色点,则该白色点为内部点;否则,则该白色点为轮廓点;
g、将步骤f得到的所有内部点设为背景点,完成手势轮廓的提取。
4.根据权利要求1所述的一种基于深度信息的手语识别方法,其特征在于,所述步骤(3)中,基于改进的SURF算法,获取手形的特征值,具体步骤包括:
h、获取掌心位置,确定关键点:
①以步骤(1)获取的右手骨骼点的骨骼空间坐标为圆心,以步骤(2)提取的手势轮廓为边界作内切圆;
②将步骤①得到的内切圆向右手腕骨骼点方向移动;
③将步骤②所述内切圆与步骤(2)提取的手势轮廓的任三个面相切,获取多个内切圆,取所述多个内切圆中半径最大的内切圆,该内切圆圆心为掌心位置,即关键点;
i、根据步骤(1)获取的右手、右手食指、右手腕的骨骼空间坐标和步骤h获取的掌心坐标,判断主方向:
求取右手食指坐标与掌心坐标的距离,若右手食指坐标与掌心坐标距离大于阈值δ,δ的取值范围为6cm-10cm,即右手食指伸直,则以右手食指坐标与右手腕坐标的方向向量逆时针旋转角度α为主方向;否则,即右手食指弯曲,则以右手腕坐标与掌心坐标的方向向量为主方向;角度α是右手食指坐标和右手腕坐标的方向向量与右手骨骼点坐标和右手腕坐标的方向向量的夹角;
j、以步骤h获取的关键点为核心,以步骤i获取的主方向为主方向,计算特征值:
④取边长为20s*20s的正方形区域,s是指关键点所在的尺度,将该正方形区域划分为4*4,共16个子区域;
⑤在步骤④得到的每个子区域内,计算Harr小波响应dx、dy;
⑥通过高斯函数进行加权,形成4*4*4=64维的手形的特征向量,加权公式如式(Ⅲ)所示:
C=I×(∑dx,∑dy,∑|dx|,∑|dy|) (Ⅲ)
式(Ⅲ)中,C表示四维向量;I表示高斯加权系数;∑dx表示水平方向值之和;∑dy表示垂直方向值之和;∑|dx|表示水平方向绝对值之和;∑|dy|表示垂直方向绝对值之和。
5.根据权利要求1所述的一种基于深度信息的手语识别方法,其特征在于,所述步骤(4)中,基于角速度与距离的运动轨迹的特征提取,具体步骤包括以下步骤:
k、利用Kinect摄像头获取的右手及右肩的骨骼空间坐标,分别计算右肩和右手的向量与XOZ平面的夹角θ1、右肩和右手的向量在XOZ平面的投影与X轴的夹角θ2;
l、利用步骤k得到夹角θ1、θ2,分别计算右手骨骼点运动的角速度ω1、ω2,计算公式如式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)所示:
<mrow>
<msub>
<mi>&theta;</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mi>a</mi>
<mi>r</mi>
<mi>c</mi>
<mi>t</mi>
<mi>a</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>y</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
</mrow>
<mrow>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>I</mi>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&theta;</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<mi>arctan</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<msub>
<mi>z</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>z</mi>
<mn>1</mn>
</msub>
</mrow>
<mrow>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
</mrow>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&omega;</mi>
<mn>1</mn>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>&theta;</mi>
<mn>1</mn>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</msubsup>
</mrow>
<mrow>
<mi>&Delta;</mi>
<mi>t</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>n</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&omega;</mi>
<mn>2</mn>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&theta;</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
</msubsup>
<mo>-</mo>
<msubsup>
<mi>&theta;</mi>
<mn>2</mn>
<msub>
<mi>t</mi>
<mrow>
<mi>i</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</msubsup>
</mrow>
<mrow>
<mi>&Delta;</mi>
<mi>t</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mi>I</mi>
<mi>I</mi>
<mo>)</mo>
</mrow>
</mrow>
式(Ⅳ)、式(Ⅴ)、式(Ⅵ)及式(Ⅶ)中,右肩的坐标为(x1,y1,z1),右手的坐标为(x2,y2,z2),i表示图像帧数,i=1,2,3....,ti表示获取第i帧图像的时间,ti-1表示获取第i-1帧图像的时间,表示在ti时刻右肩和右手的向量与XOZ平面的夹角,表示在ti-1时刻右肩和右手的向量与XOZ平面的夹角,表示在ti时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,表示在ti-1时刻右肩和右手的向量在XOZ平面的投影与X轴的夹角,△t表获取第i图像与第i-1帧图像的时间间隔;
m、计算右手与右肩的距离d,计算公式如式(Ⅷ)所示:
<mrow>
<mi>d</mi>
<mo>=</mo>
<msqrt>
<mrow>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>x</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>x</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>y</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>y</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
<mo>+</mo>
<msup>
<mrow>
<mo>(</mo>
<msub>
<mi>z</mi>
<mn>2</mn>
</msub>
<mo>-</mo>
<msub>
<mi>z</mi>
<mn>1</mn>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mrow>
</msqrt>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mi>V</mi>
<mi>I</mi>
<mi>I</mi>
<mi>I</mi>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
6.根据权利要求1所述的一种基于深度信息的手语识别方法,其特征在于,步骤(6)中,所述贝叶斯算法如式(Ⅸ)所示:
I=P(A|B)×P(B) (Ⅸ)
式(Ⅸ)中,I表示后验概率,P(B)表示先验概率,P(A|B)表示调整因子,A表示上下文信息,即已经识别出的手势,B表示未能正确识别或者存在多义性的手势。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398779.1A CN105005769B (zh) | 2015-07-08 | 2015-07-08 | 一种基于深度信息的手语识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398779.1A CN105005769B (zh) | 2015-07-08 | 2015-07-08 | 一种基于深度信息的手语识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105005769A CN105005769A (zh) | 2015-10-28 |
CN105005769B true CN105005769B (zh) | 2018-05-15 |
Family
ID=54378434
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510398779.1A Active CN105005769B (zh) | 2015-07-08 | 2015-07-08 | 一种基于深度信息的手语识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105005769B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105741263A (zh) * | 2016-01-20 | 2016-07-06 | 杭州电子科技大学 | 一种手轮廓提取及定向算法 |
CN106682585A (zh) * | 2016-12-02 | 2017-05-17 | 南京理工大学 | 一种基于kinect2的动态手势识别方法 |
CN106650687B (zh) * | 2016-12-30 | 2020-05-19 | 山东大学 | 一种基于深度信息和骨骼信息的姿势矫正方法 |
RU2019130162A (ru) * | 2017-03-03 | 2019-11-15 | Симбиозис Интернешнл Юниверсити | Система и способ для обеспечения возможности использования интерактивного носимого устройства в качестве образовательного дополнения для людей с нарушениями слуха |
CN107102727B (zh) * | 2017-03-17 | 2020-04-07 | 武汉理工大学 | 基于elm神经网络的动态手势学习与识别方法 |
CN107622257A (zh) * | 2017-10-13 | 2018-01-23 | 深圳市未来媒体技术研究院 | 一种神经网络训练方法及三维手势姿态估计方法 |
CN108776775B (zh) * | 2018-05-24 | 2020-10-27 | 常州大学 | 一种基于权重融合深度及骨骼特征的老年人室内跌倒检测方法 |
CN109409246B (zh) * | 2018-09-30 | 2020-11-27 | 中国地质大学(武汉) | 基于稀疏编码的加速鲁棒特征双模态手势意图理解方法 |
CN109839827B (zh) * | 2018-12-26 | 2021-11-30 | 哈尔滨拓博科技有限公司 | 一种基于全空间位置信息的手势识别智能家居控制系统 |
CN110263835B (zh) * | 2019-06-13 | 2021-11-12 | 中国电建集团华东勘测设计研究院有限公司 | 基于深度学习和贝叶斯网络的岩石类别自动识别方法 |
CN110751082B (zh) * | 2019-10-17 | 2023-12-12 | 烟台艾易新能源有限公司 | 一种智能家庭娱乐系统手势指令识别方法 |
CN111857334B (zh) * | 2020-07-02 | 2024-10-15 | 上海交通大学 | 人体手势字母的识别方法、装置、计算机设备及存储介质 |
CN112149607B (zh) * | 2020-10-08 | 2022-08-16 | 吉林大学 | 基于贝叶斯算法的远程智能运维方法 |
CN112507797B (zh) * | 2020-11-10 | 2024-02-20 | 温州大学 | 一种基于神经网络的手势识别系统 |
CN113642422B (zh) * | 2021-07-27 | 2024-05-24 | 东北电力大学 | 一种连续中文手语识别方法 |
CN113807287B (zh) * | 2021-09-24 | 2022-07-22 | 福建平潭瑞谦智能科技有限公司 | 一种3d结构光人脸识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246891A (zh) * | 2013-05-28 | 2013-08-14 | 重庆邮电大学 | 一种基于Kinect的中国手语识别方法 |
CN104463250A (zh) * | 2014-12-12 | 2015-03-25 | 广东工业大学 | 一种基于达芬奇技术的手语识别翻译方法 |
CN104636725A (zh) * | 2015-02-04 | 2015-05-20 | 华中科技大学 | 一种基于深度图像的手势识别方法与系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9323337B2 (en) * | 2010-12-29 | 2016-04-26 | Thomson Licensing | System and method for gesture recognition |
-
2015
- 2015-07-08 CN CN201510398779.1A patent/CN105005769B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246891A (zh) * | 2013-05-28 | 2013-08-14 | 重庆邮电大学 | 一种基于Kinect的中国手语识别方法 |
CN104463250A (zh) * | 2014-12-12 | 2015-03-25 | 广东工业大学 | 一种基于达芬奇技术的手语识别翻译方法 |
CN104636725A (zh) * | 2015-02-04 | 2015-05-20 | 华中科技大学 | 一种基于深度图像的手势识别方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105005769A (zh) | 2015-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105005769B (zh) | 一种基于深度信息的手语识别方法 | |
CN105787471B (zh) | 一种应用于助老助残移动服务机器人控制的手势识别方法 | |
WO2022111236A1 (zh) | 一种结合注意力机制的面部表情识别方法及系统 | |
Kumar et al. | A multimodal framework for sensor based sign language recognition | |
CN106650687B (zh) | 一种基于深度信息和骨骼信息的姿势矫正方法 | |
CN113158862B (zh) | 一种基于多任务的轻量级实时人脸检测方法 | |
CN104050488B (zh) | 一种基于切换的卡尔曼滤波模型的手势识别方法 | |
Várkonyi-Kóczy et al. | Human–computer interaction for smart environment applications using fuzzy hand posture and gesture models | |
Geetha et al. | A vision based dynamic gesture recognition of indian sign language on kinect based depth images | |
CN107563286A (zh) | 一种基于Kinect深度信息的动态手势识别方法 | |
CN104463191A (zh) | 一种基于注意机制的机器人视觉处理方法 | |
CN110135249A (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
CN106066996A (zh) | 人体动作的局部特征表示方法及其在行为识别的应用 | |
CN104850825A (zh) | 一种基于卷积神经网络的人脸图像颜值计算方法 | |
Rázuri et al. | Automatic emotion recognition through facial expression analysis in merged images based on an artificial neural network | |
CN109902565B (zh) | 多特征融合的人体行为识别方法 | |
CN110688965A (zh) | 基于双目视觉的ipt模拟训练手势识别方法 | |
Xu et al. | Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction | |
CN108647663A (zh) | 基于深度学习和多层次图结构模型的人体姿态估计方法 | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
Neverova | Deep learning for human motion analysis | |
Yang et al. | A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm. | |
CN103927555A (zh) | 基于Kinect传感器的静态手语字母识别系统及方法 | |
Dong et al. | An improved deep neural network method for an athlete's human motion posture recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |