CN107102727B - 基于elm神经网络的动态手势学习与识别方法 - Google Patents
基于elm神经网络的动态手势学习与识别方法 Download PDFInfo
- Publication number
- CN107102727B CN107102727B CN201710160089.1A CN201710160089A CN107102727B CN 107102727 B CN107102727 B CN 107102727B CN 201710160089 A CN201710160089 A CN 201710160089A CN 107102727 B CN107102727 B CN 107102727B
- Authority
- CN
- China
- Prior art keywords
- vector
- shoulder
- gesture
- neural network
- elbow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 140
- 230000003068 static effect Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 26
- 241000282414 Homo sapiens Species 0.000 claims abstract description 15
- 210000001364 upper extremity Anatomy 0.000 claims abstract description 8
- 210000000707 wrist Anatomy 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 10
- 230000005284 excitation Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000002474 experimental method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013401 experimental design Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于ELM神经网络的动态手势学习与识别方法,包括步骤:1)采集人体上肢的结构向量;2)将结构向量计算手势夹角信息;3)将手势夹角信息描述为静态手势特征序列;4)将静态手势特征序列作为输入层建立ELM神经网络;5)输入静态手势特征序列的样本数据对ELM神经网络进行训练,计算隐含层到输出层的权值;6)得到隐含层到输出层的权值即ELM神经网络训练完成;7)将静态手势特征序列的数据输入ELM神经网络进行识别。本发明采用基于前馈型网络的学习方法‑‑极限学习机,并将其用于人机互动的手势识别,相对于BP神经网络,ELM算法具有更快的学习速度和更好的识别效果。本发明可操作性更强,网络的泛化能力更好,手势的成功识别率更高。
Description
技术领域
本发明涉及人机交互技术领域,具体地指一种基于ELM神经网络的动态手势学习与识别方法。
背景技术
手势作为一种简单直接的人机交互方式,其交互应用已涉及远程控制、家庭护理、体感游戏、智能家居以及日常教学等领域,俨然已成为人机交互领域的重要研究对象。基于计算机视觉的手势交互,作为辅助人类与机器进行自然、非接触交流的主要方式,其识别技术的飞速发展是实现人机交互领域繁荣发展的关键所在。目前而言,基于手势的人机交互技术还不能完全满足人们的需求,人机交互应用市场迫切需求更好的技术来改善现有的交互模式,因此研究基于视觉的手势识别方法具有十分重要的意义。
手势识别方法研究的内涵是模式识别,其外延是人工智能。手势识别系统的两个关键组成部分是特征提取和模式分类,模式分类器的性能直接影响整个识别系统的性能。换言之,手势识别算法的优劣直接决定着最后的分类识别效果。根据算法特点,手势识别方法研究可以分为模板匹配法和状态空间法。模板匹配法指的是将提取的手势特征与参考模板特征逐一比较,根据给定的相似度算法对手势进行分类匹配,主要有动态时间规整算法和光流法。状态空间法的原理与模板匹配不同,它将每个静止的手势作为空间中的一个节点,运动的手势序列则可以表示为不同节点间的一次遍历,主要有隐马尔科夫模型、动态贝叶斯网络、神经网络等。
目前,通常采用BP神经网络的算法进行手势识别,基于BP (Back-Propagation)神经网络的手势识别算法存在的缺陷,因为在一定范围内,BP算法的手势识别率随着隐含层节点个数的增加而变高,然后在达到某值后逐渐稳定。然而,当隐含层节点数过多时,随着节点数的增加,手势识别率反而会有所下降。而且BP算法需要对很多参数进行设置,每层权值、阈值、隐含层节点数、学习率等这些参数发生变化均会影响网络的性能,并且BP算法容易陷入局部最优解,导致网络泛化能力较差。
发明内容
针对上述现有技术的缺陷,本发明所提出的一种基于ELM神经网络的动态手势学习与识别方法,解决了现有方法对于动态手势的学习速度慢、识别率低的问题。
为实现上述目的,本发明所设计的一种基于ELM神经网络的动态手势学习与识别方法,包括如下步骤:
1)采集人体上肢的结构向量;
2)将所述结构向量计算手势夹角信息;
3)将所述手势夹角信息描述为静态手势特征序列;
4)将所述静态手势特征序列作为输入层建立ELM神经网络;
5)输入所述静态手势特征序列的样本数据对所述ELM神经网络进行训练,计算隐含层到输出层的权值;
6)得到所述隐含层到输出层的权值即ELM神经网络训练完成;
7)将静态手势特征序列的数据输入ELM神经网络进行识别。
优选地,所述步骤2)中所述结构向量计算手势夹角信息包括肩膀中心到左肩的向量与左肩到左手肘的向量之间的夹角β1、左肩到左手肘的向量与左手肘到左手腕的向量之间的夹角β2、左手肘到左手腕的向量与左手腕到左手的向量之间的夹角β3、肩膀中心到右肩的向量与右肩到右手肘的向量之间的夹角β4、右肩到右手肘的向量与右手肘到右手腕的向量之间的夹角β5、右手肘到右手腕的向量与右手腕到右手的向量之间的夹角β6。
优选地,所述步骤4)中ELM神经网络模型为单隐层前馈神经网络。
优选地,所述步骤4)的具体步骤包括:
41)将所述静态手势特征序列的样本数据作为输入层;
42)初始化网络,随机生成输入层到隐含层权值矩阵W和隐含层阈值向量b,确定隐含层节点数l和激励函数g(x);
43)根据隐含层对输入样本数据的响应h(x)的定义计算隐含层响应矩阵H;
优选地,所述肩膀中心到右肩的向量与右肩到右手肘的向量之间的夹角β4、右肩到右手肘的向量与右手肘到右手腕的向量之间的夹角β5、右手肘到右手腕的向量与右手腕到右手的向量之间的夹角β6由肩膀中心到左肩的向量与左肩到左手肘的向量之间的夹角β1、左肩到左手肘的向量与左手肘到左手腕的向量之间的夹角β2、左手肘到左手腕的向量与左手腕到左手的向量之间的夹角β3依据人体对称结构得到,上述六个夹角的取值范围均为[0,π]。
最佳地,所述隐含层节点数l为39。
本发明采用基于前馈型网络的学习方法--极限学习机 (ELM,Extreme LearningMachine),并将其用于人机互动的手势识别。实验结果表明,相对于BP神经网络,ELM算法具有更快的学习速度和更好的识别效果。本发明可操作性更强,网络的泛化能力更好,手势的成功识别率更高。
附图说明
图1为本发明中手势结构向量的示意图。
图2为本发明中手势结构向量夹角的示意图。
图3为本发明中手势序列描述向量构造的流程图。
图4为本发明中ELM神经网络数学模型的示意图。
图5为本发明中ELM算法的流程图。
图6为本发明中手势识别的流程图。
图7为隐含层节点数与BP算法手势识别率的关系示意图。
图8为隐含层节点数与ELM算法手势识别率的关系示意图。
图9为ELM算法和BP算法对比图。
具体实施方式
为了更清楚本发明的方案及实现效果,以下结合附图和具体实施例对本发明作进一步地详细描述。
本发明所提供的一种基于ELM神经网络的动态手势学习与识别方法,包括如下步骤:
1)采集人体上肢的结构向量。
首先从关节点的选取和关节向量间的角度两方面来构造静态手势描述向量。选择与手势变化密切相关的9个关节点描述手势的特征,分别为左手、左手腕、左手肘、左肩、肩膀中心、右手、右手腕、右手肘、右肩。
针对骨骼模型中人体的结构特点构造手势结构向量是描述手部角度信息的基础。根据人体骨骼模型的上肢部分共构造8组结构向量,结构向量构造方法如图1所示。向量分别表示左手臂上的关节点组成的向量,分别代表肩膀中心到左肩、左肩到左手肘、左手肘到左手腕、左手腕到左手的结构向量。相应地,右手臂上的关节点组成的4组结构向量包括肩膀中心到右肩的向量右肩到右手肘的向量右手肘到右手腕的向量右手腕到右手的向量其具体对应位置见图1。
2)将结构向量计算手势夹角信息。
选取相邻结构向量间的夹角表示关节点角度信息,利用各夹角的值构造静态手势描述向量,进而表示静态手势特征。本发明共选取6 个角度信息构造静态手势描述向量,图2展示了人体左臂上不同结构向量间的夹角信息。
结合图1和图2可以看出,β1表示肩膀中心到左肩的向量与左肩到左手肘的向量之间的夹角,其值反应左肩节点的角度变化信息。夹角β2表示左肩到左手肘的向量与左手肘到左手腕的向量之间的夹角、β3表示左手肘到左手腕的向量与左手腕到左手的向量之间的夹角,其值分别反应节点左手肘、左手腕处的角度变化信息。图2中标出了左臂结构向量间的3个夹角信息,右臂结构向量的3个夹角信息可依据人体对称结构得到,分别为:肩膀中心到右肩的向量与右肩到右手肘的向量之间的夹角β4、右肩到右手肘的向量与右手肘到右手腕的向量之间的夹角β5、右手肘到右手腕的向量与右手腕到右手的向量之间的夹角β6。这6个夹角的取值范围均为[0,π]。
3)将手势夹角信息描述为静态手势特征序列。手势序列描述向量构造的流程如图3所示。
G表示静态手势描述向量,则有G=(β1,β2,β3,β4,β5,β6)也就是说,由 6个角度值组成的静态手势描述向量就可以表示静态手势特征。
一个手势序列是由若干帧静态手势组成,GS表示一个有N帧数据的手势序列,对于手势序列GS有
GS=(G1,G2,···,GN)
其中Gi表示第i帧数据对应的静态手势描述向量,且1≤i≤N。也就是说一个包含N帧数据的手势序列可以用N个静态手势描述向量来表示动态手势特征。
4)将静态手势特征序列作为输入层建立ELM神经网络。
本发明提出的极限学习机(ELM,Extreme Learning Machine)算法是基于单隐层前馈神经网络(SLFNs,Single-hidden Layer Feedforward Networks)的学习算法,属于快速机器学习方法的范畴,如图4和图5所示。在前馈型神经网络中,常用的学习方法是反向传播,即BP算法。但BP算法需要设置各种参数,且算法易收敛到局部最小解。其次,隐含层和输出层的初始权值以及阈值的确定均对网络的稳定性和泛化能力有所影响,从而影响最后的识别效果。然而采用 ELM算法只需要对隐含层神经元数目进行设置,无须对权值和阈值进行修正,从而缩短了训练时间。另外,通过ELM算法得到的解是全局最优解,解决了BP神经网络求解过程中易陷入局部最优解的难题。
极限学习机的学习步骤如下:
5)输入静态手势特征序列的样本数据对所述ELM神经网络进行训练,计算隐含层到输出层的权值。输入训练样本集根据夹角组成手势序列G=(β1,β2,β3,β4,β5,β6)得到多组手势序列组成样本集Gs。由8个手势向量计算出6个手势向量夹角,每6个手势向量夹角组成一个G,多组G组成样本Gs。将Gs输入进极限学习机进行运算,最终可以运算出隐含层到输出层的权值
假设样本量为N[N即手势序列GS=(G1,G2,···,GN)],输入层节点数为n[即输入层节点个数],输入向量为xi=(xi1,xi2,···,xin)T[从输入层每个节点输入的值这里输入Gs里面的各部分手势序列],1≤i≤N,i、N均为自然数;隐含层激励函数为g(x),神经元节点数为l[隐含层的节点个数],阈值为bj[每个数据到隐含层后会有一个误差值,由系统随机生成], 1≤j≤l,j、l均为自然数;输出层激励函数为f(x),一般情况下激励函数设置为f(x)=x,输出层节点数为m[输出层的节点个数],节点阈值为bos[每个数据到输出层之后的误差值,系统随机生成],1≤s≤m,s、 m均为自然数;输出向量为yi=(yi1,yi2,···,yim)[实际输出结果],期望输出向量为ai=(ai1,ai2,...,aim)[理想输出结果],1≤i≤N;输入层与隐含层间的权值矩阵为W=(w1,w2,···wj,···wl)[由极限学习机神经网络随机生成],wj为n维列向量,表示输入层所有节点到隐含层第j个节点的权值;隐含层与输出层间的权值矩阵为β=(β1,β2,···βs,···βm)[β为极限学习机训练阶段所求值,求出β即完成训练],βs为l维列向量,表示隐含层所有节点到输出层第s个节点的权值。那么对于只含一层隐含层的ELM神经网络来说,第i个样本的输出为:
yi=f[g(WTxi+b)Tβ+bo]=g(WTxi+b)Tβ+bo
=[g(w1xi+b1)g(w2xi+b2)···g(wlxi+bl)]β+bo
其中阈值序列b=(b1,b2,···,bj,···,bl)T,节点阈值序列 bo=(bo1,bo2,···,bos,···,bom),隐含层对输入样本向量的响应表示为 h(xi)=[g(w1xi+b1)g(w2xi+b2)···g(wlxi+bl)],那么有输出
yi=h(xi)β+bo
对于N个样本的网络,若记隐含层响应矩阵H=[h(x1)h(x2)···h(xN)]T, BoT=(bo,···,bo)1×N,则系统输出可表示为 Y=Hβ+Bo
若用A=(a1,a2,···,aN)T表示系统的期望输出,则系统的误差函数可表示为 E=||A-Y||=||A-(Hβ+Bo)||
对于一个输入层、输出层、隐含层节点数分别为n,m,l的前馈型神经网络,若激励函数g(x):R→R满足在任意区间上无限可微,那么对于随机生成的权值向量wi和阈值bj,都有隐含层响应矩阵H可逆,则有误差函数||A-Hβ||=0。
根据上面的定理,只要满足激励函数g(x)在R→R的任意区间上无限可微,权值wi和阈值bj均可指定,因此网络进行训练时无需对这两个参数进行调整。由于||A-Hβ||=0,因此输出层阈值bos也无需调整,最后整个网络就只需确定输出层权值矩阵β。
在理想的情况下,前馈型神经网络的N个输出向量yi等于相应的期望输出向量ai,即存在A=Hβ也就是说,若能求出式中的矩阵β,就能够构造一个输出误差为零的神经网络,此时误差函数E为零矩阵,输出层权值矩阵为β=H-1A。只要隐含层节点数满足l=N,那么误差函数E就为零矩阵,此时一定存在N×N阶可逆矩阵H。
然而在一般情况下,隐含层神经元个数小于神经网络的输入样本数,即有l<N,此时隐含层响应矩阵H不是方阵,不能求其一般意义上的逆矩阵H-1,因此我们转而求使系统误差函数E最小的解。设为误差函数E取最小值的解,则有
7)将静态手势特征序列的数据输入ELM神经网络进行识别。
期望输出A=(a1,a2,···,aN)T的值根据实际情况选取,即用矩阵将静态手势特征序列的样本数据分类。选取后,输入大量样本数据进去ELM 中训练,训练完毕后,输入任意手势特征序列数据进入可以求得输出值。将输出值与预先制定的期望输出标准A值对比可以判断出所代表的含义。输出值在预先制定的A值标准中找不到则识别失败。
试验及结果分析
本发明选取810个向量样本分为两组,一组为训练向量样本,另一组为测试向量样本,每组样本量为405,包含各类手势45个,并对其类别进行标记,而且确定了实验数据。基于神经网络的手势识别实验都是先对多个样本进行学习训练,然后再对测试样本进行分类识别,也就是说基于BP算法或ELM算法的手势识别流程是相同的,其手势识别流程如图6所示。
(1)BP算法实验设计
本发明采用标准三层结构的BP算法在手势数据上进行实验。三层BP网络有许多参数需要确定,其中输入层节点数i'和输出层节点数o'可分别由输入向量样本的维度和样本总类别数来确定,即i'=360 且o'=9。BP网络的权值和阈值使用[-1,1]间的随机值来进行初始化,最小均方误差和迭代次数上限分别设为0.001和1000。由此,确定了部分训练参数的值,然而另外两个重要参数无法直接确定,即隐含层节点数l'和学习步长η'。目前没有好的理论可以帮助我们直接确定隐含层节点数和学习步长,但是我们可以根据经验公式先确定隐含层节点数l'的取值范围,其计算公式如下:其中,i',l',o'分别表示BP算法输入层、隐含层、输出层的节点个数, a'为常数项,取值范围为1~8。根据上式即可计算出隐含层节点数的经验取值范围为20~27。
采用BP神经网络对样本进行训练时,未确定值的隐含层节点数l' 和学习步长η'均会影响最后的手势识别效果。欲获得BP算法的最佳识别率,需先分析手势识别结果随隐含层节点数和学习步长的变化规律。为使实验结果更加合理,需先确定其中一个参数的值,研究BP 算法的手势识别结果随另一个参数的变化规律。上文根据经验公式已经确定了隐含层节点数的取值范围,因此先设置学习步长为一个定值,研究隐含层节点数对BP算法手势识别结果的影响。设置学习步长为η'=0.2,隐含层节点数l'分别设置为经验值范围内的数,即可得到 405个手势测试样本的8组实验结果。下表展示了8组实验的隐含层节点数、迭代次数以及手势识别结果。
表1隐含层节点数对BP算法的影响
根据表1中给出的值,我们可以研究BP算法手势识别率随隐含层节点数的变化规律。图7给出了BP算法隐含层节点数与手势识别率之间的关系。由图7可以看出,当隐含层节点数在经验值范围内取值时,手势识别率随节点数的增加而增加,并且在隐含层节点数达到某一值时,手势识别率会有所降低。这是因为增大隐含层节点数会使得迭代次数增加,从而使得神经网络过度拟合,导致手势识别率有所降低。因此,选择合适的隐含层节点数对于BP神经网络模型至关重要。
由表1可知,隐含层节点数为l'=25时,BP算法的手势识别率最高,此时经436次迭代后BP算法的均方误差达到预设的最小值,网络训练结束。因此,设定隐含层节点数l'为25,学习步长η'分别选择不同的值,研究其对BP算法手势识别结果的影响。有文献指出,对于标准BP神经网络,学习步长η'的初始值取值范围为[0.1,0.7][60]。设置隐含层节点数l'=25,学习步长η'取该范围内不同值时的手势识别结果如表2所示。
表2学习步长η'对BP算法的影响
由表2可以看出,当学习步长η'=0.45时,BP算法的手势识别率最高,因此选取学习步长η'=0.45为最佳值。由此,BP算法取得最佳识别率时的所有参数得到确定。也就是说,当隐含层节点数为l'=25,学习步长为η'=0.45时,BP算法的手势识别效果达到最佳。
(2)ELM算法实验设计
在选用ELM算法对405个手势测试样本进行分类识别时,ELM 算法输入层节点数为手势描述向量的维数360,输出层节点数为手势样本类数9,激励函数取“S”型函数。由于ELM算法中无须确定权值和阈值,因此在ELM神经网络中输入手势样本向量后,仅需要确认隐含层节点的个数就可对手势样本进行训练和识别。在手势识别过程中,ELM算法的隐含层节点数的取值没有经验公式可供借鉴,因此隐含层节点数依次取1~50间的数,研究ELM算法的手势识别结果与隐含层节点数之间的关系。根据图8中的手势识别结果,可以研究ELM 算法手势识别率与隐含层节点数的关系。由图8可知,当隐含层节点数为[1,39]内的数值时,随着隐含层节点数的增加,ELM算法的手势识别率在波动中不断提高,直至隐含层节点数增至39时,手势识别率达到最高。当隐含层节点数大于39时,随着隐含层节点数的增加,手势识别率会有所下降。因此,ELM算法取得最佳手势识别率84.2%时,隐含层节点数为39。
根据设计的两组实验,本发明研究了BP算法和ELM算法的手势识别结果随各自参数的变化规律,并确定了两个算法达到最高识别率时的参数。在ELM算法中,由于输入层到隐含层的权值矩阵和隐含层节点的阈值是随机产生的,因此,最后的手势识别结果会有所波动。为使实验结果更加合理,采用ELM算法识别手势时,设定隐含层节点数后,重复实验20次,取20次实验结果的平均值作为ELM算法的手势识别结果。与此同时,记录每次实验的训练时长,取20次实验的平均时长作为ELM算法的训练时长。由实验可得,隐含层节点数为39时,ELM算法的平均手势识别率为83.3%,平均训练时长为 0.03秒。由BP算法实验可知,当隐含层节点数为l=25,学习步长为η=0.45时,BP算法的手势识别率达到最高且为75.1%,此时训练时长为10.8秒。
表3给出了BP算法和ELM算法的最佳识别结果对比。由表3可以看出,ELM算法的手势识别效果和训练时长均优于BP算法。两种算法的手势识别结果与训练时长对比如图9所示。
表3 BP算法和ELM算法最佳识别结果对比
根据上面的实验结果,可以得出下面的结论:
(1)由图7可以看出,在一定范围内,BP算法的手势识别率随着隐含层节点个数的增加而变高,然后在达到某值后逐渐稳定。然而,当隐含层节点数过多时,随着节点数的增加,手势识别率反而会有所下降。这是因为隐含层节点数过多会导致过度训练的问题,从而使得识别率下降。从表1中可以看出,增加隐含层节点数容易让网络的迭代次数增多。因此,隐含层神经元节点数的确定对BP网络模型至关重要。
(2)由图8可以看出,ELM算法的手势识别率在某个范围内随着隐含层节点数增多而提高。当隐含层节点数达到某个值时,随着隐含层节点数的增加,手势识别率会有所下降。因此,隐含层节点数是影响ELM算法手势识别效果的重要因素,隐含层神经元节点数的确定是ELM算法手势识别的关键点。
(3)比较图9中BP算法与ELM算法的实验结果,可以看出ELM 算法的手势识别效果优于BP神经网络算法,并且ELM算法的训练时长明显短于BP算法。这是因为ELM算法寻找的是全局最优解,并且无须对很多参数进行设置,只需要确定隐含层节点数就能对输入样本进行训练,缩短了网络训练时间。而BP算法需要对很多参数进行设置,每层权值、阈值、隐含层节点数、学习率等这些参数发生变化均会影响网络的性能,并且BP算法容易陷入局部最优解,导致网络泛化能力较差。对比可知,相对于BP神经网络,ELM算法的可操作性更强,网络的泛化能力更好,手势的成功识别率更高。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
Claims (5)
1.一种基于ELM神经网络的动态手势学习与识别方法,其特征在于:包括如下步骤:
1)采集人体上肢的结构向量;首先从关节点的选取和关节向量间的角度两方面来构造静态手势描述向量,选择与手势变化密切相关的9个关节点描述手势的特征,分别为左手、左手腕、左手肘、左肩、肩膀中心、右手、右手腕、右手肘、右肩;针对骨骼模型中人体的结构特点构造手势结构向量是描述手部角度信息的基础,根据人体骨骼模型的上肢部分共构造8组结构向量;人体上肢的结构向量包括肩膀中心到左肩的向量左肩到左手肘的向量左手肘到左手腕的向量左手腕到左手的向量肩膀中心到右肩的向量右肩到右手肘的向量右手肘到右手腕的向量右手腕到右手的向量
2)将所述结构向量计算手势夹角信息;所述结构向量计算手势夹角信息包括肩膀中心到左肩的向量与左肩到左手肘的向量之间的夹角β1、左肩到左手肘的向量与左手肘到左手腕的向量之间的夹角β2、左手肘到左手腕的向量与左手腕到左手的向量之间的夹角β3、肩膀中心到右肩的向量与右肩到右手肘的向量之间的夹角β4、右肩到右手肘的向量与右手肘到右手腕的向量之间的夹角β5、右手肘到右手腕的向量与右手腕到右手的向量之间的夹角β6;
所述肩膀中心到右肩的向量与右肩到右手肘的向量之间的夹角β4、右肩到右手肘的向量与右手肘到右手腕的向量之间的夹角β5、右手肘到右手腕的向量与右手腕到右手的向量之间的夹角β6由肩膀中心到左肩的向量与左肩到左手肘的向量之间的夹角β1、左肩到左手肘的向量与左手肘到左手腕的向量之间的夹角β2、左手肘到左手腕的向量与左手腕到左手的向量之间的夹角β3依据人体对称结构得到,上述六个夹角的取值范围均为[0,π];
3)将所述手势夹角信息描述为静态手势特征序列;
4)将所述静态手势特征序列作为输入层建立ELM神经网络;
5)输入所述静态手势特征序列的样本数据对所述ELM神经网络进行训练,计算隐含层到输出层的权值;
6)得到所述隐含层到输出层的权值即ELM神经网络训练完成;
7)将静态手势特征序列的数据输入ELM神经网络进行识别。
2.根据权利要求1所述的基于ELM神经网络的动态手势学习与识别方法,其特征在于:所述步骤4)中ELM神经网络模型为单隐层前馈神经网络。
5.根据权利要求4所述的基于ELM神经网络的动态手势学习与识别方法,其特征在于:所述隐含层节点数l为39。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710160089.1A CN107102727B (zh) | 2017-03-17 | 2017-03-17 | 基于elm神经网络的动态手势学习与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710160089.1A CN107102727B (zh) | 2017-03-17 | 2017-03-17 | 基于elm神经网络的动态手势学习与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107102727A CN107102727A (zh) | 2017-08-29 |
CN107102727B true CN107102727B (zh) | 2020-04-07 |
Family
ID=59675073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710160089.1A Expired - Fee Related CN107102727B (zh) | 2017-03-17 | 2017-03-17 | 基于elm神经网络的动态手势学习与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107102727B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019144346A1 (zh) * | 2018-01-25 | 2019-08-01 | 腾讯科技(深圳)有限公司 | 虚拟场景中的对象处理方法、设备及存储介质 |
CN108509839A (zh) * | 2018-02-02 | 2018-09-07 | 东华大学 | 一种基于区域卷积神经网络高效的手势检测识别方法 |
CN108647292A (zh) * | 2018-05-07 | 2018-10-12 | 前海梧桐(深圳)数据有限公司 | 基于神经网络算法的企业特性分类计算方法及系统 |
CN108960171B (zh) * | 2018-07-12 | 2021-03-02 | 安徽工业大学 | 一种基于特征迁移学习的转换手势识别到身份识别的方法 |
CN109271947A (zh) * | 2018-09-28 | 2019-01-25 | 合肥工业大学 | 一种基于热成像的夜间实时手语识别系统 |
CN110443167B (zh) * | 2019-07-23 | 2022-05-17 | 中国建设银行股份有限公司 | 传统文化手势的智能识别方法、智能交互方法及相关装置 |
CN110390303B (zh) * | 2019-07-24 | 2022-04-08 | 达闼机器人有限公司 | 摔倒报警方法、电子设备及计算机可读存储介质 |
CN110674747A (zh) * | 2019-09-24 | 2020-01-10 | 上海眼控科技股份有限公司 | 行为判别方法、装置、计算机设备和可读存储介质 |
CN111796519B (zh) * | 2020-06-14 | 2022-05-06 | 武汉理工大学 | 一种基于极限学习机的多输入多输出系统自动控制方法 |
CN111831356B (zh) * | 2020-07-09 | 2023-04-07 | 北京灵汐科技有限公司 | 权重精度配置方法、装置、设备及存储介质 |
US11797850B2 (en) | 2020-07-09 | 2023-10-24 | Lynxi Technologies Co., Ltd. | Weight precision configuration method and apparatus, computer device and storage medium |
CN114777771B (zh) * | 2022-04-13 | 2024-08-20 | 西安电子科技大学 | 一种室外无人车组合导航定位方法 |
CN114997295B (zh) * | 2022-05-25 | 2024-09-10 | 吉林大学 | 一种基于lr-elm的下肢假肢运动识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005769A (zh) * | 2015-07-08 | 2015-10-28 | 山东大学 | 一种基于深度信息的手语识别方法 |
CN105807926A (zh) * | 2016-03-08 | 2016-07-27 | 中山大学 | 一种基于三维连续动态手势识别的无人机人机交互方法 |
-
2017
- 2017-03-17 CN CN201710160089.1A patent/CN107102727B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005769A (zh) * | 2015-07-08 | 2015-10-28 | 山东大学 | 一种基于深度信息的手语识别方法 |
CN105807926A (zh) * | 2016-03-08 | 2016-07-27 | 中山大学 | 一种基于三维连续动态手势识别的无人机人机交互方法 |
Non-Patent Citations (3)
Title |
---|
"Constructive, Robust and Adaptive OS-ELM in Human Action Recognition";Arif Budiman等;《IAICT 2014》;20140830;全文 * |
"基于神经网络的手势识别研究";冯桐;《中国优秀硕士论文全文数据库》;20150715;50-59页 * |
"应用Kinect的人体行为识别方法研究与系统设计";韩旭;《中国优秀硕士论文全文数据库》;20131015;21-30页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107102727A (zh) | 2017-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107102727B (zh) | 基于elm神经网络的动态手势学习与识别方法 | |
Pranav et al. | Facial emotion recognition using deep convolutional neural network | |
Chen et al. | A novel ensemble ELM for human activity recognition using smartphone sensors | |
Song et al. | An efficient initialization approach of Q-learning for mobile robots | |
Zuo et al. | Deterministic generative adversarial imitation learning | |
Lu et al. | A hybrid wavelet neural network and switching particle swarm optimization algorithm for face direction recognition | |
Su et al. | HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors | |
Zeng et al. | CNN model design of gesture recognition based on tensorflow framework | |
Guo et al. | A deep reinforcement learning method for multimodal data fusion in action recognition | |
CN110009108A (zh) | 一种全新的量子超限学习机 | |
CN104408470A (zh) | 基于平均脸预学习的性别检测方法 | |
Wan | Deep learning: Neural network, optimizing method and libraries review | |
Hu et al. | An optimization strategy for weighted extreme learning machine based on PSO | |
Zhai et al. | Facial beauty prediction via local feature fusion and broad learning system | |
Patel et al. | Quantum inspired binary neural network algorithm | |
Soltani et al. | Newman-Watts-Strogatz topology in deep echo state networks for speech emotion recognition | |
Yang et al. | AM-SGCN: Tactile object recognition for adaptive multichannel spiking graph convolutional neural networks | |
Petluru et al. | Transfer Learning-based Facial Expression Recognition with modified ResNet50 | |
Guo et al. | Exploiting LSTM-RNNs and 3D skeleton features for hand gesture recognition | |
Li et al. | Multimodal information-based broad and deep learning model for emotion understanding | |
CN105740815A (zh) | 一种基于深度递归分层条件随机场的人体行为识别方法 | |
Tonchev et al. | Human Skeleton Motion Prediction Using Graph Convolution Optimized GRU Network | |
CN114863548A (zh) | 基于人体运动姿态非线性空间特征的情绪识别方法及装置 | |
Kasabov et al. | Incremental learning in autonomous systems: evolving connectionist systems for on-line image and speech recognition | |
Tian et al. | (Retracted) Facial expression recognition in classroom environment based on improved Xception model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200407 |