CN111695523A - 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 - Google Patents
基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 Download PDFInfo
- Publication number
- CN111695523A CN111695523A CN202010539760.5A CN202010539760A CN111695523A CN 111695523 A CN111695523 A CN 111695523A CN 202010539760 A CN202010539760 A CN 202010539760A CN 111695523 A CN111695523 A CN 111695523A
- Authority
- CN
- China
- Prior art keywords
- joint
- motion
- space
- skeleton
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 36
- 238000010586 diagram Methods 0.000 claims abstract description 75
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 40
- 230000002708 enhancing effect Effects 0.000 claims abstract description 11
- 230000000877 morphologic effect Effects 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 210000001503 joint Anatomy 0.000 claims description 27
- 230000007797 corrosion Effects 0.000 claims description 9
- 238000005260 corrosion Methods 0.000 claims description 9
- 230000003628 erosive effect Effects 0.000 claims description 9
- 230000003068 static effect Effects 0.000 claims description 9
- 210000004394 hip joint Anatomy 0.000 claims description 7
- 210000002414 leg Anatomy 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 108091026890 Coding region Proteins 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000009286 beneficial effect Effects 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 239000003086 colorant Substances 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 6
- 230000008859 change Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 2
- 210000003127 knee Anatomy 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000003423 ankle Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000002683 foot Anatomy 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
- G06T3/604—Rotation of whole images or parts thereof using coordinate rotation digital computer [CORDIC] devices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,计算机视觉图像与视频处理领域,用于解决复杂场景下基于骨骼信息动作识别方法识别率低的问题,要点是:(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换;(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图;(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征;基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类,效果是对具有视角变化、丰富噪声以及细微差别动作等复杂场景,可有效提高动作识别准确率。
Description
技术领域
本发明属于计算机视觉图像与视频处理领域,涉及一种基于骨骼空时及动态特征并结合双流卷积神经网络(Two-Stream-CNN,TS-CNN)的动作识别方法。
背景技术
作为计算机视觉领域的研究热点,人体动作识别在智能监控、人机交互、视频检索等领域具有重要的应用价值。其中主要面临以下几个技术难点:由于光照变化和杂乱背景等因素使得此类方法鲁棒性较差。深度图像信息冗余度较大,从而增加了算法计算复杂度,进而限制了此类方法的实际应用。并且由于深度传感器捕获的原始骨骼信息中含有噪声且关节间空时信息模糊,如何经由三维骨骼数据有效提取运动信息以识别人体动作仍面临巨大挑战。基于手工提取特征的识别动作方法所提取特征较为单一,因而识别精度较为有限且普适性较差;基于RNN良好的时间序列建模能力,利用RNN构建动作识别模型,然而RNN无法有效表达关节间空域关系;基于CNN强大的空域特征提取能力,利用CNN从骨架序列编码图像中抽取动作特征,将每个关节信息独立编码为彩色图像,传统方法将骨骼序列编码为彩色纹理图时主要由以下几个问题:首先,每个关节信息被独立编码为彩色图像,但忽略了关节间相关信息;其次,忽略了关节之间空间约束,从而使得关节空域信息混乱,进而导致识别精度有限;最后,仅关注关节静态特征,忽略其动态特性,且没有考虑各关节对动作完成的参与度不同,从而使得运动信息编码不完整,关节空域显著性信息丢失,进而导致动作识别率较为有限。
发明内容
为解决上述问题,本发明提出了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,能够解决复杂场景下基于骨骼信息动作识别方法识别率低的问题。
本发明采用以下技术方案:一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,该方法包括以下步骤:
(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换。
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图,具体是:
(2.1)基于人体结构约束,将关节相对坐标与绝对坐标编码为骨骼空时特征图。
(2.2)将相同时间步长下的关节速度信息编码为关节运动速度图。
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征。
(4)基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。
进一步的,所述步骤(1)具体为:
由深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系,对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系,其方法是:
构造以运动幅度较小的髋关节为原心的身体坐标系,对于具有N个关节点,F帧的视频序列,关节坐标变换可表示为:
进一步的,所述步骤(2)具体为:
所述步骤(2.1)中,将关节绝对坐标及关节之间相对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法是:
第j个关节的空时特征由矩阵Qj_i表示为:
只选取相关度较高的一、二级相关信息,一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (4)
其中,h,k;j,i;m,n表示仅由一条边相连的关节对,p,o;u,v;y,x表示由两条边相连的关节对。
按照身体结构排列坐标信息,将身体所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,由此编码顺序得骨骼空时特征图为:
所述步骤(2.2)中,提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符,f帧内关节在x,y,z三方向的速度值表示如下:
式中,FPS为所采用摄像机的帧速。
将vx、vy、vz分别对应至R、G、B,编码关节运动信息为N×(F-Δf)维的关节运动速度图。
进一步的,所述步骤(3)具体为:
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
其中,f>1。||·||表示欧氏距离,关节i在整个动作序列中运动能量为:
(3.2)基于形态学算子增强关节运动速度特征图纹理信息以提升速度估计性能,其方法是:
首先对关节运动速度图进行腐蚀运算以消除噪声作如下操作:
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素。由公式(12)对步骤(2.2)所得f帧内关节在x,y,z三方向的速度值vx、vy、vz进行腐蚀运算:
Iv=[vxΘE vyΘE vzΘE] (13)
其中Iv表示腐蚀后的关节运动速度图
对腐蚀后图像再进行膨胀运算:
进一步的,所述步骤(4)具体为:
双流卷积神经网络模型是AlexNet模型,AlexNet模型的第一层、第三层及第四层中神经元个数分别是64、256、256,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
进一步的,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果,其方法是:
给定骨骼序列Sm处理分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取,基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,得后验概率为:
ActionClass=Fin(Max(PSSTM⊙PJMSM)) (16)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
有益效果:本发明基于空时及动态特征的动作识别,对每类动作的坐标系变换;构建骨骼空时特征、运动特征描述符;增强骨骼空时特征图中具有明显移动特征的关节空域信息并利用形态学算子增强关节运动速度图以消除噪声;基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。在本发明中,由于选取相对稳定的关节作为坐标原点变换骨骼序列坐标系,所得身体坐标系可有效表征关节间相关信息,并利用此相关信息,构建骨骼空时特征图;在编码骨骼序列时加入身体结构约束,极大的提高了不同类动作间的识别率;此外,加入骨骼动态信息后更加全面表征动作特征信息,使得本发明整体识别率显著提升;最后,通过运动显著性增强以减小同类动作间的差异,降低相似动作间的错误识别率。与主流人体动作识别方法相比,本发明在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别率。
附图说明
图1为本发明方法主要框架流程示意图。
图2为Kinect坐标系骨骼坐标。
图3为身体坐标系关节可视化。
图4为标注25个人体关节。
图5为关节距离图及所提骨骼空时特征图:图5的a1为关节距离图;图5的a2为骨骼空时特征图。
图6为图像增强彩色纹理图:图6的b1为骨骼空时特征图运动增强;图6的b2为关节运动速度图视觉增强。
图7为双流卷积神经网络模型。
具体实施方式
以下结合附图对本发明作进一步说明。
本发明中,基于骨骼空时及动态信息的双流卷积神经网络动作识别方法的流程如附图1所示,实现步骤如下:
(1)将骨骼序列进行坐标系转换,得到以髋关节为坐标原点的身体坐标系;
由Kinect等深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系,如图2所示需对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系,具体为:
构造以运动幅度较小的髋关节为原心的身体坐标系。对于具有N个关节点,F帧的视频序列,关节坐标变换可表示为:
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图;
步骤(2.1):将关节间相对坐标及关节绝对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法为:
基于以上所述,第j个关节的空时特征可由矩阵Qj_i表示为:
本发明中,只选取相关度较高的一、二(即只有一条或两条边相连的关节对)级相关信息,以降低计算复杂度,减少类间混淆,提升类内鲁棒性。一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (21)
其中,h,k;j,i;m,n等表示仅由一条边相连的关节对,如左手腕与左手肘、左脚腕与左膝盖等,p,o;u,v;y,x等表示由两条边相连的关节对,如左手腕与左肩、左脚与左膝等。
由于CNN的感受区域随网络深度增加而增大,因此相关度较大的关节对间空域信息应该在浅层提取,而相关度较低的空域信息则应在深层获取。提出的关节距离图,如图5的a1所示,将关节信息按照固定顺序排列为彩色图像而忽略相对空域信息不同,按照身体结构排列坐标信息,将所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,如图4所示。以右臂为例,关节点[25,24,12,11,10,9]在图4中相邻,因而相关度较高,将其分为一组可更为有效地提取其间空域关系特征。基于以上所述,所得骨骼空时特征图可有效编码关节的空时域信息,如图5的a2所示。
基于编码后骨骼序列可得骨骼空时特征图为:
(2.2)提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符。f帧内关节在x,y,z三方向的速度值可表示如下:
式中,FPS为所采用的Kinect摄像机的帧速。
将vx、vy、vz分别对应至R、G、B,则可编码关节运动信息为N×(F-Δf)维的关节运动速度图。
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征的方法,来提升不同动作的类间差异,同时降低同类动作的类内差异;
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
其中,f>1;||·||表示欧氏距离。由此可得,关节i在整个动作序列中运动能量为:
图6的b1所示,运动能量高的关节相关信息所对应色彩被增强,而运动能量低的关节色彩信息则被虚化,因此,采用所提自适应增强方式使得骨骼空时特征图具有运动显著性特征,从而可提高动作分类能力。
(3.2)基于形态学算子增强运动特征图纹理信息以提升速度估计性能。所提方法首先对关节运动速度图进行腐蚀运算以消除噪声,即:
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素。
由公式(12)对步骤(2.2)所得vx、vy、vz进行腐蚀运算,即:
Iv=[vxΘE vyΘE vzΘE] (30)
对腐蚀后图像再进行膨胀运算以还原并平滑原始纹理从而有效减小类内速度差异。加入膨胀运算,可得:
其中Iv表示腐蚀后的关节运动速度图;
对腐蚀后图像再进行膨胀运算以还原并平滑原始纹理从而有效减小类内速度差异。加入膨胀运算,可得:
图6的b2所示,相较于原始图像(第一行),增强后图像(第二行)的纹理更加平滑,且在保持原有纹理基本不变情况下,有效剔除无用信息,从而缩小同类动作间差异。
(4)构建基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类;
双流卷积神经网络模型由两个改进的AlexNet构成,如图7所示,将AlexNet中第一层、第三层及第四层中神经元个数分别由96、384、384改为64、256、256,构成本发明中的双流卷积神经网络模型。
将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
给定骨骼序列Sm,经由上述处理可分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取。基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,可得后验概率为:
ActionClass=Fin(Max(PSSTM⊙PMSM)) (34)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
本发明的基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,首先变换骨骼三维坐标系以获得包含关节相对位置的坐标信息;其次,将关节间相关信息编码为彩色纹理图以构建骨骼空时特征描述符,并考虑人体物理结构约束以增加类间差异;而后,估计各关节速度信息,并将其编码为彩色纹理图以获得骨骼运动特征描述符;此外,基于运动显著性及形态学算子分别增强所得空时及动态特征以进一步提升特征表达能力;最后,增强后的骨骼空时及动态特征经由双流卷积神经网络深度融合以实现动作识别。针对具有视角变化、丰富噪声以及细微差别动作等复杂场景,本发明可有效提高动作识别准确率。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (6)
1.一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:该方法包括以下步骤:
(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换;
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图,具体是:
(2.1)基于人体结构约束,将关节相对坐标与绝对坐标编码为骨骼空时特征图;
(2.2)将相同时间步长下的关节速度信息编码为关节运动速度图;
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征;
(4)基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。
3.根据权利要求1所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(2)具体为:
所述步骤(2.1)中,将关节绝对坐标及关节之间相对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法是:
第j个关节的空时特征由矩阵Qj_i表示为:
只选取相关度较高的一、二级相关信息,一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (4)
其中,h,k;j,i;m,n表示仅由一条边相连的关节对,p,o;u,v;y,x表示由两条边相连的关节对;
按照身体结构排列坐标信息,将身体所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,由此编码顺序得骨骼空时特征图为:
所述步骤(2.2)中,提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符,f帧内关节在x,y,z三方向的速度值表示如下:
式中,FPS为所采用摄像机的帧速;
将vx、vy、vz分别对应至R、G、B,编码关节运动信息为N×(F-Δf)维的关节运动速度图。
4.根据权利要求3所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(3)具体为:
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
其中,f>1;||·||表示欧氏距离,关节i在整个动作序列中运动能量为:
(3.2)基于形态学算子增强关节运动速度特征图纹理信息以提升速度估计性能,其方法是:
首先对关节运动速度图进行腐蚀运算以消除噪声作如下操作:
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素;由公式(12)对步骤(2.2)所得f帧内关节在x,y,z三方向的速度值vx、vy、vz进行腐蚀运算:
Iv=[vxΘE vyΘE vzΘE] (13)
其中Iv表示腐蚀后的关节运动速度图
对腐蚀后图像再进行膨胀运算:
5.根据权利要求1所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(4)具体为:
双流卷积神经网络模型是AlexNet模型,AlexNet模型的第一层、第三层及第四层中神经元个数分别是64、256、256,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
6.根据权利要求4所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果,其方法是:
给定骨骼序列Sm处理分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取,基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,得后验概率为:
ActionClass=Fin(Max(PSSTM⊙PJMSM)) (16)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539760.5A CN111695523B (zh) | 2020-06-15 | 2020-06-15 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010539760.5A CN111695523B (zh) | 2020-06-15 | 2020-06-15 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111695523A true CN111695523A (zh) | 2020-09-22 |
CN111695523B CN111695523B (zh) | 2023-09-26 |
Family
ID=72480940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010539760.5A Active CN111695523B (zh) | 2020-06-15 | 2020-06-15 | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695523B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270246A (zh) * | 2020-10-23 | 2021-01-26 | 泰康保险集团股份有限公司 | 视频行为识别方法及装置、存储介质、电子设备 |
CN112861808A (zh) * | 2021-03-19 | 2021-05-28 | 泰康保险集团股份有限公司 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
CN113011381A (zh) * | 2021-04-09 | 2021-06-22 | 中国科学技术大学 | 基于骨骼关节数据的双人动作识别方法 |
CN114943987A (zh) * | 2022-06-07 | 2022-08-26 | 首都体育学院 | 一种采用pams运动编码的运动行为知识图谱构建方法 |
US11854305B2 (en) | 2021-05-09 | 2023-12-26 | International Business Machines Corporation | Skeleton-based action recognition using bi-directional spatial-temporal transformer |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038738A (zh) * | 2014-06-04 | 2014-09-10 | 东北大学 | 一种提取人体关节点坐标的智能监控系统及方法 |
CN105787439A (zh) * | 2016-02-04 | 2016-07-20 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
US20170347107A1 (en) * | 2016-05-26 | 2017-11-30 | Mstar Semiconductor, Inc. | Bit allocation method and video encoding device |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109670401A (zh) * | 2018-11-15 | 2019-04-23 | 天津大学 | 一种基于骨骼运动图的动作识别方法 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110188599A (zh) * | 2019-04-12 | 2019-08-30 | 哈工大机器人义乌人工智能研究院 | 一种人体姿态行为智能分析识别方法 |
CN110222568A (zh) * | 2019-05-05 | 2019-09-10 | 暨南大学 | 一种基于时空图的跨视角步态识别方法 |
CN110253583A (zh) * | 2019-07-02 | 2019-09-20 | 北京科技大学 | 基于穿戴示教服视频的人体姿态机器人示教方法及装置 |
CN110929637A (zh) * | 2019-11-20 | 2020-03-27 | 中国科学院上海微系统与信息技术研究所 | 一种图像识别方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-15 CN CN202010539760.5A patent/CN111695523B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104038738A (zh) * | 2014-06-04 | 2014-09-10 | 东北大学 | 一种提取人体关节点坐标的智能监控系统及方法 |
CN105787439A (zh) * | 2016-02-04 | 2016-07-20 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
US20170347107A1 (en) * | 2016-05-26 | 2017-11-30 | Mstar Semiconductor, Inc. | Bit allocation method and video encoding device |
CN109460707A (zh) * | 2018-10-08 | 2019-03-12 | 华南理工大学 | 一种基于深度神经网络的多模态动作识别方法 |
CN109670401A (zh) * | 2018-11-15 | 2019-04-23 | 天津大学 | 一种基于骨骼运动图的动作识别方法 |
CN109919122A (zh) * | 2019-03-18 | 2019-06-21 | 中国石油大学(华东) | 一种基于3d人体关键点的时序行为检测方法 |
CN110188599A (zh) * | 2019-04-12 | 2019-08-30 | 哈工大机器人义乌人工智能研究院 | 一种人体姿态行为智能分析识别方法 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110222568A (zh) * | 2019-05-05 | 2019-09-10 | 暨南大学 | 一种基于时空图的跨视角步态识别方法 |
CN110253583A (zh) * | 2019-07-02 | 2019-09-20 | 北京科技大学 | 基于穿戴示教服视频的人体姿态机器人示教方法及装置 |
CN110929637A (zh) * | 2019-11-20 | 2020-03-27 | 中国科学院上海微系统与信息技术研究所 | 一种图像识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
吴珍珍;邓辉舫;: "利用骨架模型和格拉斯曼流形的3D人体动作识别", 计算机工程与应用 * |
郑潇;彭晓东;王嘉璇;: "基于姿态时空特征的人体行为识别方法" * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270246A (zh) * | 2020-10-23 | 2021-01-26 | 泰康保险集团股份有限公司 | 视频行为识别方法及装置、存储介质、电子设备 |
CN112270246B (zh) * | 2020-10-23 | 2024-01-05 | 泰康保险集团股份有限公司 | 视频行为识别方法及装置、存储介质、电子设备 |
CN112861808A (zh) * | 2021-03-19 | 2021-05-28 | 泰康保险集团股份有限公司 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
CN112861808B (zh) * | 2021-03-19 | 2024-01-23 | 泰康保险集团股份有限公司 | 动态手势识别方法、装置、计算机设备及可读存储介质 |
CN113011381A (zh) * | 2021-04-09 | 2021-06-22 | 中国科学技术大学 | 基于骨骼关节数据的双人动作识别方法 |
US11854305B2 (en) | 2021-05-09 | 2023-12-26 | International Business Machines Corporation | Skeleton-based action recognition using bi-directional spatial-temporal transformer |
CN114943987A (zh) * | 2022-06-07 | 2022-08-26 | 首都体育学院 | 一种采用pams运动编码的运动行为知识图谱构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111695523B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339903B (zh) | 一种多人人体姿态估计方法 | |
CN111695523B (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN110728183A (zh) | 一种基于注意力机制的神经网络的人体动作识别方法 | |
CN114283495B (zh) | 一种基于二值化神经网络的人体姿态估计方法 | |
CN112329525A (zh) | 一种基于时空图卷积神经网络的手势识别方法和装置 | |
CN113792641A (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN115830652B (zh) | 一种深度掌纹识别装置及方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
Yuan et al. | STransUNet: A siamese TransUNet-based remote sensing image change detection network | |
CN116258757A (zh) | 一种基于多尺度交叉注意力的单目图像深度估计方法 | |
CN115063717A (zh) | 一种基于重点区域实景建模的视频目标检测与跟踪方法 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN116704596A (zh) | 一种基于骨骼序列的人体行为识别方法 | |
CN114882524A (zh) | 一种基于全卷积神经网络的单目三维手势估计方法 | |
CN114333002A (zh) | 基于图深度学习和人脸三维重建的微表情识别方法 | |
Hang et al. | Spatial-temporal adaptive graph convolutional network for skeleton-based action recognition | |
Zhao et al. | Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images | |
CN112149645A (zh) | 基于生成对抗学习和图神经网络的人体姿势关键点识别方法 | |
CN115331301A (zh) | 一种基于Transformer的6D姿态估计方法 | |
CN113936333A (zh) | 一种基于人体骨架序列的动作识别算法 | |
CN117252892B (zh) | 基于轻量化视觉自注意力网络的双分支人像自动抠图装置 | |
CN117611428A (zh) | 一种时装人物图像风格变换方法 | |
CN117115855A (zh) | 基于多尺度Transformer学习丰富视觉特征的人体姿态估计方法及系统 | |
CN117315069A (zh) | 基于图像特征对齐的人体姿态迁移方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |