[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111695523A - 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 - Google Patents

基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 Download PDF

Info

Publication number
CN111695523A
CN111695523A CN202010539760.5A CN202010539760A CN111695523A CN 111695523 A CN111695523 A CN 111695523A CN 202010539760 A CN202010539760 A CN 202010539760A CN 111695523 A CN111695523 A CN 111695523A
Authority
CN
China
Prior art keywords
joint
motion
space
skeleton
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010539760.5A
Other languages
English (en)
Other versions
CN111695523B (zh
Inventor
王洪雁
张鼎卓
袁海
汪祖民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010539760.5A priority Critical patent/CN111695523B/zh
Publication of CN111695523A publication Critical patent/CN111695523A/zh
Application granted granted Critical
Publication of CN111695523B publication Critical patent/CN111695523B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/60Rotation of whole images or parts thereof
    • G06T3/604Rotation of whole images or parts thereof using coordinate rotation digital computer [CORDIC] devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,计算机视觉图像与视频处理领域,用于解决复杂场景下基于骨骼信息动作识别方法识别率低的问题,要点是:(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换;(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图;(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征;基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类,效果是对具有视角变化、丰富噪声以及细微差别动作等复杂场景,可有效提高动作识别准确率。

Description

基于骨骼时空及动态信息的双流卷积神经网络动作识别方法
技术领域
本发明属于计算机视觉图像与视频处理领域,涉及一种基于骨骼空时及动态特征并结合双流卷积神经网络(Two-Stream-CNN,TS-CNN)的动作识别方法。
背景技术
作为计算机视觉领域的研究热点,人体动作识别在智能监控、人机交互、视频检索等领域具有重要的应用价值。其中主要面临以下几个技术难点:由于光照变化和杂乱背景等因素使得此类方法鲁棒性较差。深度图像信息冗余度较大,从而增加了算法计算复杂度,进而限制了此类方法的实际应用。并且由于深度传感器捕获的原始骨骼信息中含有噪声且关节间空时信息模糊,如何经由三维骨骼数据有效提取运动信息以识别人体动作仍面临巨大挑战。基于手工提取特征的识别动作方法所提取特征较为单一,因而识别精度较为有限且普适性较差;基于RNN良好的时间序列建模能力,利用RNN构建动作识别模型,然而RNN无法有效表达关节间空域关系;基于CNN强大的空域特征提取能力,利用CNN从骨架序列编码图像中抽取动作特征,将每个关节信息独立编码为彩色图像,传统方法将骨骼序列编码为彩色纹理图时主要由以下几个问题:首先,每个关节信息被独立编码为彩色图像,但忽略了关节间相关信息;其次,忽略了关节之间空间约束,从而使得关节空域信息混乱,进而导致识别精度有限;最后,仅关注关节静态特征,忽略其动态特性,且没有考虑各关节对动作完成的参与度不同,从而使得运动信息编码不完整,关节空域显著性信息丢失,进而导致动作识别率较为有限。
发明内容
为解决上述问题,本发明提出了一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,能够解决复杂场景下基于骨骼信息动作识别方法识别率低的问题。
本发明采用以下技术方案:一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,该方法包括以下步骤:
(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换。
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图,具体是:
(2.1)基于人体结构约束,将关节相对坐标与绝对坐标编码为骨骼空时特征图。
(2.2)将相同时间步长下的关节速度信息编码为关节运动速度图。
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征。
(4)基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。
进一步的,所述步骤(1)具体为:
由深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系,对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系,其方法是:
构造以运动幅度较小的髋关节为原心的身体坐标系,对于具有N个关节点,F帧的视频序列,关节坐标变换可表示为:
Figure BDA0002538500200000021
其中,
Figure BDA0002538500200000022
分别为坐标系变换前后第f帧关节j的坐标信息,
Figure BDA0002538500200000023
为髋关节第f帧的坐标信息。
进一步的,所述步骤(2)具体为:
所述步骤(2.1)中,将关节绝对坐标及关节之间相对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法是:
基于坐标转换后的骨骼序列
Figure BDA0002538500200000024
关节相对位置由下式获得:
Figure BDA0002538500200000025
其中,
Figure BDA0002538500200000026
是第f帧中第j个关节相对第i个关节的三维坐标,表示为第j,i个关节相连骨骼的空间信息,当i=1时,
Figure BDA0002538500200000027
为第j个关节的绝对坐标,
Figure BDA0002538500200000028
第j个关节的空时特征由矩阵Qj_i表示为:
Figure BDA0002538500200000029
只选取相关度较高的一、二级相关信息,一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (4)
其中,h,k;j,i;m,n表示仅由一条边相连的关节对,p,o;u,v;y,x表示由两条边相连的关节对。
按照身体结构排列坐标信息,将身体所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,由此编码顺序得骨骼空时特征图为:
Figure BDA00025385002000000210
其中,k为动作类别,A为关节点绝对坐标,
Figure BDA00025385002000000211
Figure BDA00025385002000000212
中三维坐标分别对应R、G、B三通道,将骨骼空时特征Ek转换为72×F的骨骼空时特征图。
所述步骤(2.2)中,提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符,f帧内关节在x,y,z三方向的速度值表示如下:
Figure BDA0002538500200000031
其中,
Figure BDA0002538500200000032
为关节在f+Δf帧时的三维坐标值。Δf为时间步长,Δt为:
Figure BDA0002538500200000033
式中,FPS为所采用摄像机的帧速。
将vx、vy、vz分别对应至R、G、B,编码关节运动信息为N×(F-Δf)维的关节运动速度图。
进一步的,所述步骤(3)具体为:
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
第k类动作序列期间,坐标为
Figure BDA00025385002000000313
的关节i于第f帧所具有的瞬时能量为:
Figure BDA0002538500200000034
其中,f>1。||·||表示欧氏距离,关节i在整个动作序列中运动能量为:
Figure BDA0002538500200000035
基于运动能量
Figure BDA0002538500200000036
第i个关节色彩权重
Figure BDA0002538500200000037
可由下式获得:
Figure BDA0002538500200000038
式中,
Figure BDA0002538500200000039
分别为第k类动作序列期间所有关节运动能量的最大值及最小值。
按照所述编码顺序,将第k类动作中所有关节色彩权重Ωk编码为运动增强权值:
Figure BDA00025385002000000310
增强骨骼空时特征图表示为:
Figure BDA00025385002000000311
(3.2)基于形态学算子增强关节运动速度特征图纹理信息以提升速度估计性能,其方法是:
首先对关节运动速度图进行腐蚀运算以消除噪声作如下操作:
Figure BDA00025385002000000312
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素。由公式(12)对步骤(2.2)所得f帧内关节在x,y,z三方向的速度值vx、vy、vz进行腐蚀运算:
Iv=[vxΘE vyΘE vzΘE] (13)
其中Iv表示腐蚀后的关节运动速度图
对腐蚀后图像再进行膨胀运算:
Figure BDA0002538500200000041
式中,Jv表示腐蚀并膨胀后的关节运动速度图,Θ表示腐蚀运算,
Figure BDA0002538500200000042
表示膨胀运算。
进一步的,所述步骤(4)具体为:
双流卷积神经网络模型是AlexNet模型,AlexNet模型的第一层、第三层及第四层中神经元个数分别是64、256、256,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
进一步的,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果,其方法是:
给定骨骼序列Sm处理分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取,基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,得后验概率为:
Figure BDA0002538500200000043
其中,
Figure BDA0002538500200000044
为第m个骨骼序列的图像
Figure BDA0002538500200000045
属于第n类动作的概率,
Figure BDA0002538500200000046
表示最后一层全连接层第n个神经元的输入,x表示骨骼空时特征图或关节运动速度图,N为动作类别数。
双流卷积神经网络模型每次输出n个
Figure BDA0002538500200000047
Figure BDA0002538500200000048
对每流输出采用乘法融合以获得最终分类结果:
ActionClass=Fin(Max(PSSTM⊙PJMSM)) (16)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
Figure BDA0002538500200000049
有益效果:本发明基于空时及动态特征的动作识别,对每类动作的坐标系变换;构建骨骼空时特征、运动特征描述符;增强骨骼空时特征图中具有明显移动特征的关节空域信息并利用形态学算子增强关节运动速度图以消除噪声;基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。在本发明中,由于选取相对稳定的关节作为坐标原点变换骨骼序列坐标系,所得身体坐标系可有效表征关节间相关信息,并利用此相关信息,构建骨骼空时特征图;在编码骨骼序列时加入身体结构约束,极大的提高了不同类动作间的识别率;此外,加入骨骼动态信息后更加全面表征动作特征信息,使得本发明整体识别率显著提升;最后,通过运动显著性增强以减小同类动作间的差异,降低相似动作间的错误识别率。与主流人体动作识别方法相比,本发明在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别率。
附图说明
图1为本发明方法主要框架流程示意图。
图2为Kinect坐标系骨骼坐标。
图3为身体坐标系关节可视化。
图4为标注25个人体关节。
图5为关节距离图及所提骨骼空时特征图:图5的a1为关节距离图;图5的a2为骨骼空时特征图。
图6为图像增强彩色纹理图:图6的b1为骨骼空时特征图运动增强;图6的b2为关节运动速度图视觉增强。
图7为双流卷积神经网络模型。
具体实施方式
以下结合附图对本发明作进一步说明。
本发明中,基于骨骼空时及动态信息的双流卷积神经网络动作识别方法的流程如附图1所示,实现步骤如下:
(1)将骨骼序列进行坐标系转换,得到以髋关节为坐标原点的身体坐标系;
由Kinect等深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系,如图2所示需对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系,具体为:
构造以运动幅度较小的髋关节为原心的身体坐标系。对于具有N个关节点,F帧的视频序列,关节坐标变换可表示为:
Figure BDA0002538500200000051
其中,
Figure BDA0002538500200000052
分别为坐标系变换前后第f帧关节j的坐标信息,
Figure BDA0002538500200000053
为髋关节第f帧的坐标信息。变换后关节可视化如图3所示。
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图;
步骤(2.1):将关节间相对坐标及关节绝对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法为:
基于坐标转换后的骨骼序列
Figure BDA0002538500200000061
关节相对位置可由下式获得:
Figure BDA0002538500200000062
其中,
Figure BDA0002538500200000063
表示第f帧中第j个关节相对第i个关节的三维坐标,同时还表示第j,i个关节相连骨骼的空间信息。此外,当i=1时,
Figure BDA0002538500200000064
为第j个关节的绝对坐标,即
Figure BDA0002538500200000065
基于以上所述,第j个关节的空时特征可由矩阵Qj_i表示为:
Figure BDA0002538500200000066
本发明中,只选取相关度较高的一、二(即只有一条或两条边相连的关节对)级相关信息,以降低计算复杂度,减少类间混淆,提升类内鲁棒性。一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (21)
其中,h,k;j,i;m,n等表示仅由一条边相连的关节对,如左手腕与左手肘、左脚腕与左膝盖等,p,o;u,v;y,x等表示由两条边相连的关节对,如左手腕与左肩、左脚与左膝等。
由于CNN的感受区域随网络深度增加而增大,因此相关度较大的关节对间空域信息应该在浅层提取,而相关度较低的空域信息则应在深层获取。提出的关节距离图,如图5的a1所示,将关节信息按照固定顺序排列为彩色图像而忽略相对空域信息不同,按照身体结构排列坐标信息,将所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,如图4所示。以右臂为例,关节点[25,24,12,11,10,9]在图4中相邻,因而相关度较高,将其分为一组可更为有效地提取其间空域关系特征。基于以上所述,所得骨骼空时特征图可有效编码关节的空时域信息,如图5的a2所示。
基于编码后骨骼序列可得骨骼空时特征图为:
Figure BDA0002538500200000067
其中,k为动作类别,A为关节点绝对坐标,
Figure BDA0002538500200000068
Figure BDA0002538500200000069
中三维坐标分别对应R、G、B三通道,则可将骨骼空时特征Ek转换为72×F的骨骼空时特征图。
(2.2)提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符。f帧内关节在x,y,z三方向的速度值可表示如下:
Figure BDA0002538500200000071
其中,
Figure BDA0002538500200000072
为关节在f+Δf帧时的三维坐标值;Δf为时间步长,Δt为:
Figure BDA0002538500200000073
式中,FPS为所采用的Kinect摄像机的帧速。
将vx、vy、vz分别对应至R、G、B,则可编码关节运动信息为N×(F-Δf)维的关节运动速度图。
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征的方法,来提升不同动作的类间差异,同时降低同类动作的类内差异;
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
第k个动作序列期间,坐标为
Figure BDA0002538500200000074
的关节i于第f帧所具有的瞬时能量为:
Figure BDA0002538500200000075
其中,f>1;||·||表示欧氏距离。由此可得,关节i在整个动作序列中运动能量为:
Figure BDA0002538500200000076
基于运动能量
Figure BDA0002538500200000077
第i个关节色彩权重
Figure BDA0002538500200000078
可由下式获得:
Figure BDA0002538500200000079
式中,
Figure BDA00025385002000000710
分别为第k个动作序列期间所有关节运动能量的最大值及最小值。
按照上述编码顺序,将第k类动作中所有关节色彩权重Ωk编码为运动增强权值:
Figure BDA00025385002000000711
增强骨骼空时特征图可表示为:
Figure BDA00025385002000000712
图6的b1所示,运动能量高的关节相关信息所对应色彩被增强,而运动能量低的关节色彩信息则被虚化,因此,采用所提自适应增强方式使得骨骼空时特征图具有运动显著性特征,从而可提高动作分类能力。
(3.2)基于形态学算子增强运动特征图纹理信息以提升速度估计性能。所提方法首先对关节运动速度图进行腐蚀运算以消除噪声,即:
Figure BDA00025385002000000713
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素。
由公式(12)对步骤(2.2)所得vx、vy、vz进行腐蚀运算,即:
Iv=[vxΘE vyΘE vzΘE] (30)
对腐蚀后图像再进行膨胀运算以还原并平滑原始纹理从而有效减小类内速度差异。加入膨胀运算,可得:
Figure BDA0002538500200000081
其中Iv表示腐蚀后的关节运动速度图;
对腐蚀后图像再进行膨胀运算以还原并平滑原始纹理从而有效减小类内速度差异。加入膨胀运算,可得:
Figure BDA0002538500200000082
式中,Jv表示腐蚀并膨胀后的关节运动速度图,Θ表示腐蚀运算,
Figure BDA0002538500200000083
表示膨胀运算。
图6的b2所示,相较于原始图像(第一行),增强后图像(第二行)的纹理更加平滑,且在保持原有纹理基本不变情况下,有效剔除无用信息,从而缩小同类动作间差异。
(4)构建基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类;
双流卷积神经网络模型由两个改进的AlexNet构成,如图7所示,将AlexNet中第一层、第三层及第四层中神经元个数分别由96、384、384改为64、256、256,构成本发明中的双流卷积神经网络模型。
将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
给定骨骼序列Sm,经由上述处理可分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取。基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,可得后验概率为:
Figure BDA0002538500200000084
其中,
Figure BDA0002538500200000085
为第m个骨骼序列的图像
Figure BDA0002538500200000086
属于第n类动作的概率,
Figure BDA0002538500200000087
表示最后一层全连接层第n个神经元的输入,x表示骨骼空时特征图或关节运动速度图,N为动作类别数。
所提模型中,每次输出n个
Figure BDA0002538500200000088
Figure BDA0002538500200000089
对每流输出采用乘法融合以获得最终分类结果:
ActionClass=Fin(Max(PSSTM⊙PMSM)) (34)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
Figure BDA0002538500200000091
本发明的基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,首先变换骨骼三维坐标系以获得包含关节相对位置的坐标信息;其次,将关节间相关信息编码为彩色纹理图以构建骨骼空时特征描述符,并考虑人体物理结构约束以增加类间差异;而后,估计各关节速度信息,并将其编码为彩色纹理图以获得骨骼运动特征描述符;此外,基于运动显著性及形态学算子分别增强所得空时及动态特征以进一步提升特征表达能力;最后,增强后的骨骼空时及动态特征经由双流卷积神经网络深度融合以实现动作识别。针对具有视角变化、丰富噪声以及细微差别动作等复杂场景,本发明可有效提高动作识别准确率。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (6)

1.一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:该方法包括以下步骤:
(1)输入骨骼序列,将所获取的骨骼序列进行坐标系转换;
(2)基于转换后的坐标信息构建骨骼空时特征图及关节运动速度图,具体是:
(2.1)基于人体结构约束,将关节相对坐标与绝对坐标编码为骨骼空时特征图;
(2.2)将相同时间步长下的关节速度信息编码为关节运动速度图;
(3)基于运动显著性及形态学算子分别增强骨骼空时特征图及关节运动速度图特征;
(4)基于双流卷积神经网络深度融合增强后的骨骼空时特征图及关节运动速度图以实现动作分类。
2.根据权利要求1所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(1)具体为:
由深度传感器捕获的骨骼序列皆位于摄像机为原点的笛卡尔坐标系,对骨骼三维坐标进行坐标系转换以获得有效表征空域信息的身体坐标系,其方法是::
构造以运动幅度较小的髋关节为原心的身体坐标系,对于具有N个关节点,F帧的视频序列,关节坐标变换可表示为:
Figure FDA0002538500190000011
其中,
Figure FDA0002538500190000012
分别为坐标系变换前后第f帧关节j的坐标信息,
Figure FDA0002538500190000013
为髋关节第f帧的坐标信息。
3.根据权利要求1所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(2)具体为:
所述步骤(2.1)中,将关节绝对坐标及关节之间相对坐标联合编码为彩色纹理图,构成表征动作空时域特性的骨骼空时特征图,其方法是:
基于坐标转换后的骨骼序列
Figure FDA0002538500190000014
关节相对位置由下式获得:
Figure FDA0002538500190000015
其中,
Figure FDA0002538500190000016
是第f帧中第j个关节相对第i个关节的三维坐标,表示为第j,i个关节相连骨骼的空间信息,当i=1时,
Figure FDA0002538500190000017
为第j个关节的绝对坐标,
Figure FDA0002538500190000018
第j个关节的空时特征由矩阵Qj_i表示为:
Figure FDA0002538500190000021
只选取相关度较高的一、二级相关信息,一、二级相关信息分别如下式所示:
R1=[Qh_k,Qj_i,…,Qm_n],R2=[Qp_o,Qu_v,…,Qy_x] (4)
其中,h,k;j,i;m,n表示仅由一条边相连的关节对,p,o;u,v;y,x表示由两条边相连的关节对;
按照身体结构排列坐标信息,将身体所有关节分为如下五组:左臂、右臂、左腿、右腿、躯干,每组按照关节间物理连接顺序排列,由此编码顺序得骨骼空时特征图为:
Figure FDA0002538500190000022
其中,k为动作类别,A为关节点绝对坐标,
Figure FDA0002538500190000023
Figure FDA0002538500190000024
中三维坐标分别对应R、G、B三通道,将骨骼空时特征Ek转换为72×F的骨骼空时特征图;
所述步骤(2.2)中,提取各关节速度信息以表征动作动态特性,基于速度标量信息构建表征关节运动特性的特征描述符,f帧内关节在x,y,z三方向的速度值表示如下:
Figure FDA0002538500190000025
其中,
Figure FDA0002538500190000026
为关节在f+Δf帧时的三维坐标值;Δf为时间步长,Δt为:
Figure FDA0002538500190000027
式中,FPS为所采用摄像机的帧速;
将vx、vy、vz分别对应至R、G、B,编码关节运动信息为N×(F-Δf)维的关节运动速度图。
4.根据权利要求3所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(3)具体为:
(3.1)基于运动能量增强骨骼空时特征图中具有明显移动特征的关节空域信息,具体为:
第k类动作序列期间,坐标为
Figure FDA0002538500190000031
的关节i于第f帧所具有的瞬时能量为:
Figure FDA0002538500190000032
其中,f>1;||·||表示欧氏距离,关节i在整个动作序列中运动能量为:
Figure FDA0002538500190000033
基于运动能量
Figure FDA0002538500190000034
第i个关节色彩权重
Figure FDA0002538500190000035
可由下式获得:
Figure FDA0002538500190000036
式中,
Figure FDA0002538500190000037
分别为第k类动作序列期间所有关节运动能量的最大值及最小值;
按照所述编码顺序,将第k类动作中所有关节色彩权重Ωk编码为运动增强权值:
Figure FDA0002538500190000038
增强骨骼空时特征图表示为:
Figure FDA0002538500190000039
(3.2)基于形态学算子增强关节运动速度特征图纹理信息以提升速度估计性能,其方法是:
首先对关节运动速度图进行腐蚀运算以消除噪声作如下操作:
Figure FDA00025385001900000310
其中,X为二值图像,Θ表示腐蚀运算,E为结构元素;由公式(12)对步骤(2.2)所得f帧内关节在x,y,z三方向的速度值vx、vy、vz进行腐蚀运算:
Iv=[vxΘE vyΘE vzΘE] (13)
其中Iv表示腐蚀后的关节运动速度图
对腐蚀后图像再进行膨胀运算:
Figure FDA00025385001900000311
式中,Jv表示腐蚀并膨胀后的关节运动速度图,Θ表示腐蚀运算,
Figure FDA00025385001900000312
表示膨胀运算。
5.根据权利要求1所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:所述步骤(4)具体为:
双流卷积神经网络模型是AlexNet模型,AlexNet模型的第一层、第三层及第四层中神经元个数分别是64、256、256,将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果。
6.根据权利要求4所述的一种基于骨骼时空及动态信息的双流卷积神经网络动作识别方法,其特征在于:将骨骼空时特征图及关节运动速度图分别作为动静流的输入,通过卷积层、池化层、全连接层处理后,将单流CNN所生成的后验概率融合为最终识别结果,其方法是:
给定骨骼序列Sm处理分别得到骨骼空时特征图和关节运动速度图,并将二者通过双线性插值缩放至227×227像素以利于后续深度特征提取,基于CNN所提取的深度特征输出至最后一层全连接层,而后由Softmax函数对其归一化处理,得后验概率为:
Figure FDA0002538500190000041
其中,
Figure FDA0002538500190000042
为第m个骨骼序列的图像
Figure FDA0002538500190000043
属于第n类动作的概率,
Figure FDA0002538500190000044
表示最后一层全连接层第n个神经元的输入,x表示骨骼空时特征图或关节运动速度图,N为动作类别数;
双流卷积神经网络模型每次输出n个
Figure FDA0002538500190000045
Figure FDA0002538500190000046
对每流输出采用乘法融合以获得最终分类结果:
ActionClass=Fin(Max(PSSTM⊙PJMSM)) (16)
其中,Fin(·)为最大值标签函数,Max(·)为最大值算子,⊙为Hadamard积算子,SSTM表示骨骼空时特征图,JMSM表示关节运动速度图,PSSTM为静态流softmax输出值,PJMSM为动态流softmax输出值,二者分别表示为:
Figure FDA0002538500190000047
CN202010539760.5A 2020-06-15 2020-06-15 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 Active CN111695523B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539760.5A CN111695523B (zh) 2020-06-15 2020-06-15 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539760.5A CN111695523B (zh) 2020-06-15 2020-06-15 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法

Publications (2)

Publication Number Publication Date
CN111695523A true CN111695523A (zh) 2020-09-22
CN111695523B CN111695523B (zh) 2023-09-26

Family

ID=72480940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539760.5A Active CN111695523B (zh) 2020-06-15 2020-06-15 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法

Country Status (1)

Country Link
CN (1) CN111695523B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270246A (zh) * 2020-10-23 2021-01-26 泰康保险集团股份有限公司 视频行为识别方法及装置、存储介质、电子设备
CN112861808A (zh) * 2021-03-19 2021-05-28 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN113011381A (zh) * 2021-04-09 2021-06-22 中国科学技术大学 基于骨骼关节数据的双人动作识别方法
CN114943987A (zh) * 2022-06-07 2022-08-26 首都体育学院 一种采用pams运动编码的运动行为知识图谱构建方法
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038738A (zh) * 2014-06-04 2014-09-10 东北大学 一种提取人体关节点坐标的智能监控系统及方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
US20170347107A1 (en) * 2016-05-26 2017-11-30 Mstar Semiconductor, Inc. Bit allocation method and video encoding device
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109670401A (zh) * 2018-11-15 2019-04-23 天津大学 一种基于骨骼运动图的动作识别方法
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110222568A (zh) * 2019-05-05 2019-09-10 暨南大学 一种基于时空图的跨视角步态识别方法
CN110253583A (zh) * 2019-07-02 2019-09-20 北京科技大学 基于穿戴示教服视频的人体姿态机器人示教方法及装置
CN110929637A (zh) * 2019-11-20 2020-03-27 中国科学院上海微系统与信息技术研究所 一种图像识别方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038738A (zh) * 2014-06-04 2014-09-10 东北大学 一种提取人体关节点坐标的智能监控系统及方法
CN105787439A (zh) * 2016-02-04 2016-07-20 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
US20170347107A1 (en) * 2016-05-26 2017-11-30 Mstar Semiconductor, Inc. Bit allocation method and video encoding device
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN109670401A (zh) * 2018-11-15 2019-04-23 天津大学 一种基于骨骼运动图的动作识别方法
CN109919122A (zh) * 2019-03-18 2019-06-21 中国石油大学(华东) 一种基于3d人体关键点的时序行为检测方法
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110222568A (zh) * 2019-05-05 2019-09-10 暨南大学 一种基于时空图的跨视角步态识别方法
CN110253583A (zh) * 2019-07-02 2019-09-20 北京科技大学 基于穿戴示教服视频的人体姿态机器人示教方法及装置
CN110929637A (zh) * 2019-11-20 2020-03-27 中国科学院上海微系统与信息技术研究所 一种图像识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴珍珍;邓辉舫;: "利用骨架模型和格拉斯曼流形的3D人体动作识别", 计算机工程与应用 *
郑潇;彭晓东;王嘉璇;: "基于姿态时空特征的人体行为识别方法" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112270246A (zh) * 2020-10-23 2021-01-26 泰康保险集团股份有限公司 视频行为识别方法及装置、存储介质、电子设备
CN112270246B (zh) * 2020-10-23 2024-01-05 泰康保险集团股份有限公司 视频行为识别方法及装置、存储介质、电子设备
CN112861808A (zh) * 2021-03-19 2021-05-28 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN112861808B (zh) * 2021-03-19 2024-01-23 泰康保险集团股份有限公司 动态手势识别方法、装置、计算机设备及可读存储介质
CN113011381A (zh) * 2021-04-09 2021-06-22 中国科学技术大学 基于骨骼关节数据的双人动作识别方法
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer
CN114943987A (zh) * 2022-06-07 2022-08-26 首都体育学院 一种采用pams运动编码的运动行为知识图谱构建方法

Also Published As

Publication number Publication date
CN111695523B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN111339903B (zh) 一种多人人体姿态估计方法
CN111695523B (zh) 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN114283495B (zh) 一种基于二值化神经网络的人体姿态估计方法
CN112329525A (zh) 一种基于时空图卷积神经网络的手势识别方法和装置
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN115830652B (zh) 一种深度掌纹识别装置及方法
CN112036260A (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
Yuan et al. STransUNet: A siamese TransUNet-based remote sensing image change detection network
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN116704596A (zh) 一种基于骨骼序列的人体行为识别方法
CN114882524A (zh) 一种基于全卷积神经网络的单目三维手势估计方法
CN114333002A (zh) 基于图深度学习和人脸三维重建的微表情识别方法
Hang et al. Spatial-temporal adaptive graph convolutional network for skeleton-based action recognition
Zhao et al. Adaptive Dual-Stream Sparse Transformer Network for Salient Object Detection in Optical Remote Sensing Images
CN112149645A (zh) 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
CN115331301A (zh) 一种基于Transformer的6D姿态估计方法
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
CN117252892B (zh) 基于轻量化视觉自注意力网络的双分支人像自动抠图装置
CN117611428A (zh) 一种时装人物图像风格变换方法
CN117115855A (zh) 基于多尺度Transformer学习丰富视觉特征的人体姿态估计方法及系统
CN117315069A (zh) 基于图像特征对齐的人体姿态迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant