CN110032925B - 一种基于改进胶囊网络与算法的手势图像分割与识别方法 - Google Patents
一种基于改进胶囊网络与算法的手势图像分割与识别方法 Download PDFInfo
- Publication number
- CN110032925B CN110032925B CN201910130815.4A CN201910130815A CN110032925B CN 110032925 B CN110032925 B CN 110032925B CN 201910130815 A CN201910130815 A CN 201910130815A CN 110032925 B CN110032925 B CN 110032925B
- Authority
- CN
- China
- Prior art keywords
- capsule
- image
- gesture
- formula
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于改进胶囊网络与算法的手势图像分割与识别方法,属于计算机视觉与人工智能技术领域,在复杂背景下用提出的U形残差胶囊网络去掉背景,把手势图像分割出来,然后用图像处理的方法去除噪声并将其二值化图像的手势位置定位出来,第三,将定位出来的手势区域作为掩膜把原图的背景去掉,仅仅保留手势图像,最后将手势图像输入到改进的矩阵胶囊网络,采用改进算法进行识别。改进算法比U‑Net算法大大降低了参数量,提高了手势图像的分割性能,从而提高了手势图像的识别率。
Description
技术领域
本发明涉及计算机视觉与人工智能技术领域,尤其涉及一种基于改进胶囊网络与算法的手势图像分割与识别方法。
背景技术
目前,人与机器的交互成为人工智能领域中重要的研究领域,为了满足实际应用的需要,研究基于机器视觉的人机手势交流方法具有重要的应用价值。例如在手持式云台、无人机云台、AR(Augmented Reality)、VR(Virtual Reality)等领域的人机手势交流应用以及对聋哑人的手势手语的翻译,都将大大提高相关产品的智能化水平,同时方便人们的日常生活。一般的手势识别技术有基于数据手套的交互方法或结合图像处理方式利用肤色模型分割出手势再结合卷积神经网络(CNN)进行识别等。因为大多数技术需要预设在理想背景环境才能得以实现,也未考虑手势变化过程中CNN对物体之间的空间关系识别能力不强而导致识别率不够高。
胶囊网络进行分割和识别不同视角的手比CNN更加有优势。在手势分割方面,使用现有胶囊网络的动态路由算法难以进行手势图像较深层次的特征提取,从而造成无法训练或训练效果不理想。在手势识别方面,现有的矩阵胶囊网络收敛较慢,使用单一尺度通道造成识别率不高。直接使用CNN算法进行分割和识别参数量极大,这又极大增大了硬件开销。
发明内容
本发明的目的在于提供一种基于改进胶囊网络与算法的手势图像分割与识别方法,解决现有的矩阵胶囊网络收敛较慢,使用单一尺度通道造成识别率不高,直接使用CNN算法进行分割和识别参数量极大,又极大增大了硬件开销的技术问题。本发明提出了一种基于改进胶囊网络与算法的手势图像分割与识别方法。胶囊网络对不同视角的手势具有很好的识别能力,并且比CNN使用的参数更少,可以有效实现对复杂场景下的手势进行分割、定位和手势图像类别的识别。
一种基于改进胶囊网络与算法的手势图像分割与识别方法,所述方法包括如下步骤:
步骤1:拍摄和收集复杂背景下的手势图像,对所有图像的手势轮廓进行人工标注并生成标签图,再将原图和标签图进行图像增强处理;
步骤2:用经过图像增强后的图像对U型残差胶囊网络进行训练,把复杂背景下的手势图像输入训练好后的U型残差胶囊网络分割出二值化手势图像;
步骤3:将步骤2中分割出来的二值化手势图像经过图像定位得到矩形包围框,把包围框所对应的原图和分割图相乘最终得到分割出来的手势图像;
步骤4:利用不同手势形状的手势图像训练改进矩阵胶囊网络,输出训练好的改进矩阵胶囊网络模型,将步骤3分割出的手势图像输入改进矩阵胶囊网络模型,使用改进矩阵胶囊网络模型分类出每种不同的手势,实现手势图像的识别。
针对经典算法U-Net用于图像分割时存在参数量过大,分割效果不佳的问题,本发明提出一种U型残差胶囊网络分割模型,该模型结合了深度残差技术、胶囊网络做成一个残差胶囊结构模块,能提取手势图像更丰富的深层次特征,加快模型的收敛速度,并取代U-Net算法里面的普通卷积层,最终得出U型残差胶囊网络分割模型,改进算法比U-Net算法大大降低了参数量,提高了手势图像分割效果。针对原始胶囊网络用于图像分割时存在的难以正常在深层网络训练的问题,提出一种改进压缩函数Squash算法,改进后的压缩函数能够自适应调整激活值的数量级,使得U型残差胶囊网络分割模型能够在深层网络能正常训练,从而能有效正确输出手势分割图像。
在复杂背景下用提出的U形残差胶囊网络去掉背景,把手势图像分割出来,然后用图像处理的方法去除噪声并将其二值化图像的手势位置定位出来,第三,将定位出来的手势区域作为掩膜把原图的背景去掉,仅仅保留手势图像,最后将手势图像输入到改进的矩阵胶囊网络,采用改进算法进行识别。改进算法比U-Net算法大大降低了参数量,提高了手势图像的分割性能,从而提高了手势图像的识别率。
进一步地,所述步骤2中U型残差胶囊网络由胶囊卷积层和胶囊残差块组成,U型残差胶囊网络的左侧部分使用胶囊卷积层和胶囊残差块对图像进行提取深层特征,U型残差胶囊网络的下面使用两个胶囊残差块作为中间层,U型残差胶囊网络的右侧部分使用胶囊反卷积层进行上采样放大图像,并把U型残差胶囊网络的左侧提取的特征拼接到右侧再进行提取特征,最终输出端还原回原图像大小的手势分割图;
所述胶囊卷积层的原理算式为:
ui|j=wijui (1)
式中输入胶囊ui进乘以姿态调节向量wij得ui|j;
动态路由公式为:
bij=bij+ui|j·vj (5)
其中,cij为动态路由耦合系数(即概率向量),bij初始化为0,sj是所有预测向量和概率向量的加权之和;
将公式(1)带入动态路由公式(2-5)循环训练3次;
所述胶囊残差块由两块胶囊卷积层组成,先把输入进行批标准化,再输入到两个胶囊卷积层,第二层胶囊卷积层输出后再进行批标准化,两路输出相加再输出结果。
进一步地,所述步骤3中图像定位的具体过程为先进行图像模糊去噪,用9*9内核的低通滤波器平滑图像,每个像素替换为该像素周围像素的均值,去除分割图的噪声,然后图腐蚀去斑处理去除大点的白色斑块,算出腐蚀剩下目标的轮廓区域,根据轮廓区域求得最大边框,根据最大边框裁剪出原图和二值化图,最终将这两图合并得到彩色手势图像。
进一步地,所述步骤4中矩阵胶囊网络普通卷基层、主胶囊层、胶囊卷积层和胶囊分类层组成,矩阵胶囊网络则是把每个神经元向量做成一个n*n大小的姿态矩阵,矩阵胶囊网络最后两层的卷积胶囊层用于实现卷积、姿态变换以及以EM动态路由三个步骤,使用EM算法实现了聚类过程,E步具体算式为:
M步的公式为:
由公式(7-8)实现了按样本加权平均来估计第j类的均值,由公式(7-9)求得方差值,并由一下公式求得熵costj,
若熵值越小则属于第j类,使用sigmoid函数将值压缩到0到1之间作为激活函数,即高斯混合系数:
aj=sigmoid(λ(βa-costj)) (11)
式中选择加入λ是退火策略,该值作为温度值的倒数,随着训练次数的增加,温度下降让λ慢慢增大,使得激活函数也增大;
每层胶囊层都分配有公式(10-11)中的参数βa和βμ,该参数通过反向传播进行训练,公式(,6-11)选择3次迭代次数,实现动态路由处理。
进一步地,所述步骤2中训练时,将训练网络输出的预测值和真实输入到Loss函数中,Loss函数为:
Loss=log(Dice_loss)+α*Focal_loss (12)
(12)式中的Loss由Dice loss和Focal loss组合而成,实现有效组合这两个loss,将两者缩放到一致的数量级才能训练,使用-log放大Dice loss,同时加入放缩因子α缩小Focal loss的大小;
Dice_loss=1-dice_coef=1-2|A∩B|/(|A|+|B|) (13)
(13)式中Dice loss中的A和B分别为标签图和网络输出的预测图,该loss计算了A和B的相似度,当无限逼近相似时,dice_coef的值为1;
(14)式中的Focal loss专注于难以分类的样本,由于训练图像的背景占比很大,而手势占比很小,会导致负样本loss占据主导,γ值,取值为2,β取0.25,从而能够调节正负样本的平衡;
经过不断训练迭代更新胶囊分割网络的权重,直到Loss函数收敛,输出胶囊分割网络模型,利用胶囊分割模型进行手势图像的分割。
进一步地,所述步骤4中训练改进矩阵胶囊网络的具体过程为:
将训练改进矩阵胶囊网络激活向量输入到margin loss函数中,loss如下式所示:
(15)式中的k指的是第k分类,margin loss把每个分类的loss都加起来再取平均值,式中的λ是比例系数,调节两者的权重,式中的m+、m-分别取值0.9和0.1,则LK若要为0,那么当第k分类为正样本时,即TK为1,||vk||的长度必须要超过0.9才不会有loss误差,当第k分类为负样本时,即TK为0,||vk||的长度必须小于0.1要且才不会有loss误差,把预测的结果和真实值输入loss函数,然后进行权值更新。
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明总体性能比一般主流算法更好,且更适应运行在硬件资源紧张的云台和无人机产品上,本发明算法的参数少,更节省硬件开销;同时使用了多尺度和恒等映射的矩阵胶囊结构,用于提高手势识别率;实验结果表明:将多尺度通道的普通卷积层的输出对PrimaryCapsules进行恒等映射,能提升手势图像识别率、降低loss值和加速训练。改进矩阵胶囊网络的有益效果是:比原有矩阵胶囊网络算法方法更能有效提高手势识别率,在识别不同角度的手势图像时,比经典CNN方法的手势识别效果更好,且能加速模型训练loss值的收敛。
附图说明
图1为本发明方法流程图。
图2为本发明U型残差胶囊分割网络图。
图3为本发明残差胶囊块结构图。
图4为本发明手势定位流程图。
图5为本发明矩阵胶囊网络架构图。
图6为本发明两层卷积层改进图。
图7为本发明手势定位效果图。
图8为本发明最终效果图。
图9为本发明矩阵胶囊网络改进前后识别率对比图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本发明提供一种基于改进胶囊网络与算法的手势图像分割与识别方法流程图,主要由算法及相应的软件部分构成,软件部分主要完成图像的分割、定位和分类,主要包括视频的截帧、图像增强、手势图像的分割、手势定位的计算,手势分类的计算;整个改进胶囊网络的手势分割与识别方法流程实验环境是:包括双E5-2637v4CPU服务器,同时还使用了GTX1080Ti显卡、32GB内存来加速训练。操作系统为Ubuntu 16.04,所使用的平台是谷歌开发的机器学习框架tensorflow1.5-gpu版。U型残差胶囊分割网络、手势定位算法、矩阵胶囊识别网络、矩阵胶囊网络识别改进部分和整体分割与识别算法流程结构图分别如图2-6所示。
在图2中,U型深度残差胶囊分割网络模型主要由胶囊卷积层,胶囊残差块组成。图中左侧部分使用胶囊卷积层和胶囊残差块对一张128*128*3的图像进行提取深层特征,特征层的大小变化依次为128*128、64*64、32*32。网络最下面使用两个残差胶囊块作为中间层。右侧部分使用胶囊反卷积层进行上采样(放大图像),并把U型左侧提取的特征拼接到右侧再进行提取特征,特征层的大小变化依次为32*32、64*64、128*128,最终输出端还原回原图像大小的手势分割图。整个结构结合了残差技术,使得网络层数能够更深。胶囊卷积层原理如下:
ui|j=wijui (1)
式(1)中输入胶囊ui进乘以姿态调节向量wij得ui|j,带入动态路由公式(2-5)循环3次,从而不再使用反向传播进行训练。
bij=bij+ui|j·vj (5)
cij为动态路由耦合系数(即概率向量),bij初始化为0,sj是所有预测向量和概率向量的加权之和。
由于训练时公式(4)||sj||2通常极小(幅值在1e-20到1e-42之间),从而导致激活值vj也极小,当迭代多次后vj往往为0无法训练,改进后的压缩为公式(6),把原式(4)分母左项的1改为后,能得够自适应调节vj的数量级,从而能正常训练。
下表给出了改进后的u-res-cap-net和其他分割网络的性能指标比较。
表1本发明算法u-res-cap-net和其他算法的比较
从表中可以看出,指标Auc_roc为ROC曲线的下面积,本发明达到了0.958,指标Auc_P-R为P-R(Precisition-Recall)曲线的下面积,本发明达到了0.936,说明本模型对手势图像分割的性能非常好;指标Specific反应分割出来的图像中是背景的能力,Specific值越低,分割出来的图像越多斑点被当成手势图像;指标Sensitivity和召回率Recall一样,反应了分割出来的图像像素当中,有多少像素是属于手势图像像素的能力,Sensitivity值越高,分割出来的手势图像越完整;指标Jacard作为衡量分割精度的一种,反应了分割出来的手势图像和标签图像的相似度,Jacard值越高越近似标签图像;指标F1值同时衡量了Precisition和Recall的性能,本发明算法的F1值跟其他算法比较更好;本发明的参数量比另外两种算法要少,更加适用于硬件资源紧张的嵌入式设备。
在图3中,胶囊残差块由两块胶囊卷积层组成,该结构先把输入进行批标准化,再输入到两个胶囊卷积层,第二层胶囊卷积层输出后再进行批标准化,两路输出相加再输出结果。
在图4中,手势定位算法包括有模糊去噪、图腐蚀去斑、计算最大轮廓包围框、裁剪原图、二值化图以及合并裁剪出来的图。其中模糊去噪采用9*9内核的低通滤波器平滑图像,使得每个像素替换为该像素周围像素的均值,这样可以去除分割图的噪声;进行图像腐蚀可以去出一些大点的白色斑块,使得定位更加精准。算出腐蚀剩下目标的轮廓区域,根据这些区域求得最大边框(bbox);根据bbox裁剪出原图和二值化图,最终将这两图合并得到彩色手势图像。
在图5中,手势分类采取矩阵胶囊网络模型,矩阵胶囊网络模型由普通卷基层、主胶囊层(PrimaryCaps)、胶囊卷积层、胶囊分类层组成。卷积神经网络的每个神经元是标量输出,胶囊网络是让每个神经元向量输出,这样能够保留更多的图像特征,如方向、姿势、粗细、位置、尺寸等特征,而矩阵胶囊网络则是把每个神经元向量做成一个n*n大小的姿态矩阵,在做姿态变换的时候,矩阵运算能够比向量式胶囊运算节省很多计算开销。
矩阵胶囊网络最后两层的卷积胶囊层(ConvCaps)依次实现卷积、姿态变换以及以EM(Expectation-Maximization)动态路由三个步骤。卷积是为了提取高级特征以及让张量获取正确的维度空间。姿态变换是为了让CNN容忍视角的一些小变动,令胶囊乘以一个变换矩阵W得出一个投票矩阵,从而能够应对图像即使被旋转了一些角度也能够进行识别。对所有投票矩阵进行EM动态路由处理,若有多少类则聚为多少类。在GMM(Gaussian MixedModel)使用EM算法实现了聚类过程,其中E步为公式(7)所示。该过程是将向量聚类为k个gauss分布。式中xi为输入的投票向量,aj代表为第j类的高斯混合系数,代表数据xi在第j类的高斯分布,分母代表k个混合高斯分布之和,最终求得后验概率p(j|xi)。
M步为公式(8-12),由公式(8-9)实现了按样本加权平均来估计第j类的均值,由公式(8-10)求得方差值。
由公式(11)求得熵costj,若熵值越小则最有可能属于第j类,并通过公式(12)的sigmoid函数将值压缩到0到1之间作为激活函数,即高斯混合系数。(12)式中选择加入λ是退火策略,该值作为温度值的倒数,随着训练次数的增加,温度下降让λ慢慢增大,使得激活函数也慢慢增大。
aj=sigmoid(λ(βa-costj)) (12)
每层胶囊层都分配有公式(11-12)中的参数βa和βμ,该参数通过反向传播进行训练。公式(7-12)选择3次迭代次数,从而实现动态路由处理。
图6是对矩阵胶囊网络前两层改进后的结构图。为了让最后两层卷积胶囊层能够获得手势图像丰富的高级特征,对前两层网络(普通卷积层和PrimaryCapsules)使用了多尺度卷积和恒等映射方法进行改进。仅用一种尺度通道会导致很多特征提取不完整,导致最后两层胶囊卷积层的投票作用也不明显,改进1是把原方法5*5卷积核的做成多尺度卷积,第一分支加入2*2的池化层和2*2的卷积核,第二分支加入了两个3*3的卷积核,第三分支保持原先的5*5大卷积核,第四分支使用1*1的卷积核,最后把不同的通道拼接从而获得不同的低级特征。由于动态路由会导致训练损失值收敛过慢,改进2把PrimaryCaps层的输入和输出特征融合,强化了信息流通,加快了收敛速度。
图1是胶囊网络的手势分割与识别方法的流程图,具体流程和处理方法描述如下:
步骤1:用像机拍取大量室内外不同场景的图像,拍照22种手势,每种手势以不同的角度共拍摄500张图像。
步骤2:用软件对每张图的手势轮廓进行标注,最后生成成对的原图和二值化掩码图。
步骤3:对标定好的图像调整为128×128大小的图像,再把图像转换成TFRecord数据结构文件以便训练时能高效读取大量的图像数据。
步骤4:对训练的图像使用随机亮度调整、随机翻转、随机放缩、随机裁剪等图像增强手段,并输入到U型分割胶囊网络进行训练。
步骤5:将网络输出的预测值和真实输入到Loss函数中,Loss函数的如下所示:
Loss=log(Dice_loss)+α*Focal_loss (13)
(13)式中的Loss由Dice loss和Focal loss组合而成,多loss组合能有效提升训练效果。为了有效组合这两个loss,需要将两者缩放到一致的数量级才能训练,因此使用-log放大Dice loss,同时加入放缩因子α缩小Focal loss的大小。
Dice_loss=1-dice_coef=1-2|A|∩|B|/(|A|+|B|) (14)
(14)式中Dice loss中的A和B分别为标签图和网络输出的预测图,该loss计算了A和B的相似度,当无限逼近相似时,dice_coef的值为1。
(15)式中的Focal loss专注于难以分类的样本,由于训练图像的背景占比很大,而手势占比很小,会导致负样本loss占据主导。γ值一般取值为2,β取0.25,从而能够调节正负样本的平衡。
经过不断训练迭代更新胶囊分割网络的权重,直到Loss函数收敛,输出胶囊分割网络模型,利用胶囊分割模型进行手势图像的分割。
步骤6:经过测试集测试胶囊分割网络的性能指标,平均F1score为0.933。尽管性能指标比较好,但因为不能百分百完全分割正确,所以胶囊分割模型存在一定的噪声、斑点。为了确保分割出来的手势图像可以作为矩阵胶囊手势分割模型的输入,所以使用了定位算法。定位算法对分割出来的二值化手势图像进行图像模糊,图像腐蚀,从而保证去掉没用的斑点或噪声,以免被误判为手势图像。经过模糊和腐蚀后找出剩下物体手势区域的轮廓,计算出轮廓区域包围框位置。根据位置裁剪出原图像和二值化手势图,最后将裁剪出来的两幅图合并最终分割出无背景的手势图像。
步骤7:矩阵胶囊网络模型,矩阵胶囊网络模型由普通卷积层,主胶囊层、胶囊卷积层和胶囊分类层组成。将经过图像增强后的图像调整成28*28大小的图像输入到普通卷积层获取各种低级特征,再输送到主胶囊层做成矩阵胶囊。胶囊卷积层依次实现卷积、姿态变换以及以EM(Expectation-Maximization)动态路由三个步骤。卷积是为了提取高级特征以及让张量调整成正确的维度空间。姿态变换指为了让CNN容忍视角的一些小变动,令胶囊乘以一个变换矩阵W得出一个投票矩阵,从而能够应对图像即使被旋转了一些角度也能够进行识别。对所有投票矩阵进行EM动态路由,若有多少类则聚为多少类。把胶囊卷积层的最终结果输入到胶囊分类层,最终输出为姿态矩阵和激活向量。
步骤8:将激活向量输入到margin loss函数中,loss如下式所示:
(16)式中的的k指的是第k分类,margin loss把每个分类的loss都加起来再取平均值。式中的λ是比例系数,调节两者的权重。式中的m+、m-分别取值0.9和0.1,则LK若要为0,那么当第k分类为正样本时(即TK为1),||vk||的长度必须要超过0.9才不会有loss误差,当第k分类为负样本时(即TK为0),||vk||的长度必须小于0.1要且才不会有loss误差。把预测的结果和真实值输入loss函数,然后进行权值更新。
步骤9:将第6步输出的手势图像输入到训练好的矩阵胶囊网络模型中,进行手势分类,从而完成整个胶囊网络的手势图像分类方法的算法流程。
图7手势定位效果图依次为分割原图、模糊、腐蚀、得到最大定位边框bbox和最终分割效果。
图8中是整体实现效果图,最终把手掌手势预测为数字5。
图9是矩阵胶囊网络对不同视角的拍摄的手势数据进行测试,三条曲线对比了改进前后识别率对比、以及对比相同层数下传统CNN的手势识别率,从图中可知本发明效果更佳,本发明算法比原来的算法的手势识别率提高了3~4%,且传统CNN对不同视角拍摄的手势图像的识别率不如胶囊网络。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.一种基于改进胶囊网络与算法的手势图像分割与识别方法,其特征在于,所述方法包括如下步骤:
步骤1:拍摄和收集复杂背景下的手势图像,对所有图像的手势轮廓进行人工标注并生成标签图,再将原图和标签图进行图像增强处理;
步骤2:用经过图像增强后的图像对U型残差胶囊网络进行训练,把复杂背景下的手势图像输入训练好后的U型残差胶囊网络分割出二值化手势图像;
步骤3:将步骤2中分割出来的二值化手势图像经过图像定位得到矩形包围框,把包围框所对应的原图和分割图相乘最终得到分割出来的手势图像;
步骤4:利用不同手势形状的手势图像训练改进矩阵胶囊网络,输出训练好的改进矩阵胶囊网络模型,将步骤3分割出的手势图像输入改进矩阵胶囊网络模型,使用改进矩阵胶囊网络模型分类出每种不同的手势,实现手势图像的识别;
所述步骤2中U型残差胶囊网络由胶囊卷积层和胶囊残差块组成,U型残差胶囊网络的左侧部分使用胶囊卷积层和胶囊残差块对图像进行提取深层特征,U型残差胶囊网络的下面使用两个胶囊残差块作为中间层,U型残差胶囊网络的右侧部分使用胶囊反卷积层进行上采样放大图像,并把U型残差胶囊网络的左侧提取的特征拼接到右侧再进行提取特征,最终输出端还原回原图像大小的手势分割图;
所述胶囊卷积层的原理算式为:
ui|j=wijui (1)
式中输入胶囊ui进乘以姿态调节向量wij得ui|j;
动态路由公式为:
bij=bij+ui|j·vj (5)
其中,cij为动态路由耦合系数(即概率向量),bij初始化为0,sj是所有预测向量和概率向量的加权之和;
将公式(1)带入动态路由公式(2-5)循环训练3次;
所述胶囊残差块由两块胶囊卷积层组成,先把输入进行批标准化,再输入到两个胶囊卷积层,第二层胶囊卷积层输出后再进行批标准化,两路输出相加再输出结果;
所述步骤4中矩阵胶囊网络由普通卷基层、主胶囊层、胶囊卷积层和胶囊分类层组成,矩阵胶囊网络则是把每个神经元向量做成一个n*n大小的姿态矩阵,矩阵胶囊网络最后两层的卷积胶囊层用于实现卷积、姿态变换以及以EM动态路由三个步骤,使用EM算法实现了聚类过程,E步具体算式为:
M步的公式为:
由公式(7-8)实现了按样本加权平均来估计第j类的均值,由公式(7-9)求得方差值,并由一下公式求得熵costj,
若熵值越小则属于第j类,使用sigmoid函数将值压缩到0到1之间作为激活函数,即高斯混合系数:
aj=sigmoid(λ(βa-costj)) (11)
式中选择加入λ是退火策略,该值作为温度值的倒数,随着训练次数的增加,温度下降让λ慢慢增大,使得激活函数也增大;
每层胶囊层都分配有公式(10-11)中的参数βa和βμ,该参数通过反向传播进行训练,公式(,6-11)选择3次迭代次数,实现动态路由处理。
2.根据权利要求1所述的一种基于改进胶囊网络与算法的手势图像分割与识别方法,其特征在于:所述步骤3中图像定位的具体过程为先进行图像模糊去噪,用9*9内核的低通滤波器平滑图像,每个像素替换为该像素周围像素的均值,去除分割图的噪声,然后图腐蚀去斑处理去除大点的白色斑块,算出腐蚀剩下目标的轮廓区域,根据轮廓区域求得最大边框,根据最大边框裁剪出原图和二值化图,最终将这两图合并得到彩色手势图像。
3.根据权利要求1所述的一种基于改进胶囊网络与算法的手势图像分割与识别方法,其特征在于:所述步骤2中训练时,将训练网络输出的预测值和真实输入到Loss函数中,Loss函数为:
Loss=log(Dice_loss)+α*Focal_loss (12)
(12)式中的Loss由Dice loss和Focal loss组合而成,实现有效组合这两个loss,将两者缩放到一致的数量级才能训练,使用-log放大Dice loss,同时加入放缩因子α缩小Focalloss的大小;
Dice_loss=1-dice_coef=1-2|A∩B|/(|A|+|B|) (13)
(13)式中Diceloss中的A和B分别为标签图和网络输出的预测图,该loss计算了A和B的相似度,当无限逼近相似时,dice_coef的值为1;
(14)式中的Focalloss专注于难以分类的样本,由于训练图像的背景占比很大,而手势占比很小,会导致负样本loss占据主导,γ值,取值为2,β取0.25,从而能够调节正负样本的平衡;
经过不断训练迭代更新胶囊分割网络的权重,直到Loss函数收敛,输出胶囊分割网络模型,利用胶囊分割模型进行手势图像的分割。
4.根据权利要求1所述的一种基于改进胶囊网络与算法的手势图像分割与识别方法,其特征在于:所述步骤4中训练改进矩阵胶囊网络的具体过程为:
将训练改进矩阵胶囊网络激活向量输入到margin loss函数中,loss如下式所示:
(15)式中的k指的是第k分类,margin loss把每个分类的loss都加起来再取平均值,式中的λ是比例系数,调节两者的权重,式中的m+、m-分别取值0.9和0.1,则LK若要为0,那么当第k分类为正样本时,即TK为1,||vk||的长度必须要超过0.9才不会有loss误差,当第k分类为负样本时,即TK为0,||vk||的长度必须小于0.1要且才不会有loss误差,把预测的结果和真实值输入loss函数,然后进行权值更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130815.4A CN110032925B (zh) | 2019-02-22 | 2019-02-22 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910130815.4A CN110032925B (zh) | 2019-02-22 | 2019-02-22 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110032925A CN110032925A (zh) | 2019-07-19 |
CN110032925B true CN110032925B (zh) | 2022-05-17 |
Family
ID=67234970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910130815.4A Active CN110032925B (zh) | 2019-02-22 | 2019-02-22 | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110032925B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414402B (zh) * | 2019-07-22 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 一种手势数据标注方法、装置、电子设备及存储介质 |
CN110569781B (zh) * | 2019-09-05 | 2022-09-09 | 河海大学常州校区 | 一种基于改进胶囊网络的时间序列分类方法 |
CN110991563B (zh) * | 2019-12-23 | 2023-04-18 | 青岛大学 | 一种基于特征融合的胶囊网络随机路由方法 |
CN111709446B (zh) * | 2020-05-14 | 2022-07-26 | 天津大学 | 基于改进的密集连接网络的x线胸片分类装置 |
CN112232261A (zh) * | 2020-10-27 | 2021-01-15 | 上海眼控科技股份有限公司 | 图像序列融合的方法及设备 |
CN112487981A (zh) * | 2020-11-30 | 2021-03-12 | 哈尔滨工程大学 | 基于双路分割的ma-yolo动态手势快速识别方法 |
CN113011243A (zh) * | 2021-01-13 | 2021-06-22 | 苏州元启创人工智能科技有限公司 | 基于胶囊网络的面部表情分析方法 |
CN113112484B (zh) * | 2021-04-19 | 2021-12-31 | 山东省人工智能研究院 | 一种基于特征压缩和噪声抑制的心室图像分割方法 |
CN114241245B (zh) * | 2021-12-23 | 2024-05-31 | 西南大学 | 一种基于残差胶囊神经网络的图像分类系统 |
CN116304842A (zh) * | 2023-05-18 | 2023-06-23 | 南京信息工程大学 | 一种基于cfc结构改进的胶囊网络文本分类方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015052351A1 (en) * | 2013-10-11 | 2015-04-16 | Mauna Kea Technologies | Method for characterizing images acquired through a video medical device |
US20170235987A1 (en) * | 2016-01-14 | 2017-08-17 | Aaron Hirschmann | Systems and Methods for Labeling, Identifying, and Tracking Data Related to Consumable Product |
CN108182438B (zh) * | 2018-01-17 | 2020-09-25 | 清华大学 | 基于深度强化学习的图二值特征学习方法及装置 |
CN108629288B (zh) * | 2018-04-09 | 2020-05-19 | 华中科技大学 | 一种手势识别模型训练方法、手势识别方法及系统 |
CN108830826B (zh) * | 2018-04-28 | 2020-10-20 | 四川大学 | 一种检测肺结节的系统及方法 |
CN108898577B (zh) * | 2018-05-24 | 2022-03-01 | 西南大学 | 基于改进胶囊网络的良恶性肺结节识别装置及方法 |
CN108985316B (zh) * | 2018-05-24 | 2022-03-01 | 西南大学 | 一种改进重构网络的胶囊网络图像分类识别方法 |
-
2019
- 2019-02-22 CN CN201910130815.4A patent/CN110032925B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110032925A (zh) | 2019-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110032925B (zh) | 一种基于改进胶囊网络与算法的手势图像分割与识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN110135366B (zh) | 基于多尺度生成对抗网络的遮挡行人重识别方法 | |
CN106897673B (zh) | 一种基于retinex算法和卷积神经网络的行人再识别方法 | |
CN109543606A (zh) | 一种加入注意力机制的人脸识别方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN109035172B (zh) | 一种基于深度学习的非局部均值超声图像去噪方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN110569782A (zh) | 一种基于深度学习目标检测方法 | |
CN107705322A (zh) | 运动目标识别跟踪方法和系统 | |
CN111597920B (zh) | 一种自然场景下的全卷积单阶段的人体实例分割方法 | |
CN111310609B (zh) | 基于时序信息和局部特征相似性的视频目标检测方法 | |
CN115690542A (zh) | 一种基于改进yolov5的航拍绝缘子定向识别方法 | |
CN114445715A (zh) | 一种基于卷积神经网络的农作物病害识别方法 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN112905828B (zh) | 一种结合显著特征的图像检索器、数据库及检索方法 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
Kang et al. | Yolo-6d+: single shot 6d pose estimation using privileged silhouette information | |
CN112149526A (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN113011506B (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN111738099B (zh) | 基于视频图像场景理解的人脸自动检测方法 | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN112508863A (zh) | 一种基于rgb图像和msr图像双通道的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220427 Address after: 271600 No. 574, Hekou village, Laocheng Town, Feicheng City, Tai'an City, Shandong Province Applicant after: Wu Bin Address before: 541004 Guangxi Normal University, 15, Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region Applicant before: Guangxi Normal University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |