CN114550047A - 一种行为速率引导的视频行为识别方法 - Google Patents
一种行为速率引导的视频行为识别方法 Download PDFInfo
- Publication number
- CN114550047A CN114550047A CN202210164283.8A CN202210164283A CN114550047A CN 114550047 A CN114550047 A CN 114550047A CN 202210164283 A CN202210164283 A CN 202210164283A CN 114550047 A CN114550047 A CN 114550047A
- Authority
- CN
- China
- Prior art keywords
- behavior
- feature
- frame rate
- rate
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 57
- 230000033001 locomotion Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000008447 perception Effects 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 11
- 230000004927 fusion Effects 0.000 claims abstract description 8
- NVNSXBXKNMWKEJ-UHFFFAOYSA-N 5-[[5-(2-nitrophenyl)furan-2-yl]methylidene]-1,3-diphenyl-2-sulfanylidene-1,3-diazinane-4,6-dione Chemical compound [O-][N+](=O)C1=CC=CC=C1C(O1)=CC=C1C=C1C(=O)N(C=2C=CC=CC=2)C(=S)N(C=2C=CC=CC=2)C1=O NVNSXBXKNMWKEJ-UHFFFAOYSA-N 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 19
- 230000002123 temporal effect Effects 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000003542 behavioural effect Effects 0.000 claims 1
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000004069 differentiation Effects 0.000 claims 1
- 238000005070 sampling Methods 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 36
- 230000003287 optical effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009476 short term action Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种行为速率引导的视频行为识别方法,包括:1)将视频拆分成图像帧,并按高低两个帧率采样;2)使用卷积神经网络对抽取的图片进行特征提取;3)将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;4)使用基于特征差分的动作感知对时间和通道维度加权;5)使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;6)基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;7)对UCF‑101数据集的行为识别数据进行训练建模,对测试集进行识别得到准确率结果。从实验结果可以看到,本发明针对行为识别在主流数据集上提高了测试结果的精度。
Description
技术领域
本发明属于计算机视觉、视频分类、深度学习领域,具体涉及一种行为速率引导的视频行为识别方法。
背景技术
行为识别是通过运用计算机等科学技术手段,对视频中人的仪表、手势、体态、动作、活动等行为模式进行分析归类,是借鉴并融合了认知科学、数据挖掘、机器学习、模式识别等诸多方面成果的综合性研究。
近年来,行为识别在智能视频监控、辅助医疗监护、智能人机交互、全息运动分析及虚拟现实等领域均具有广泛的应用需求。从应用场景来看,行为识别可以分为异常行为识别、单人行为识别、多人行为识别等。但是,行为定义模糊、类内和类间差异较大、计算代价等问题给视频行为识别带来了巨大的挑战。
传统的行为识别方法大部分都是基于图片提取的光流信息进行特征设计和分类。然而,基于手工特征的传统方法受限于光流提取,巨大的计算代价导致传统方法无法做到实时识别,难以进行实际的部署和推广。
随着深度学习的崛起,许多深度学习方法被用于行为识别领域。目前基于深度学习的行为识别研究方法有双流网络、循环神经网络、3D卷积等。
双流CNN通过效仿人体视觉过程,对视频信息理解,在处理视频图像中的环境空间信息的基础上,对视频帧序列中的时序信息进行理解,为了更好地对这些信息进行理解,双流卷积神经网络将异常行为分类任务分为两个不同的部分。单独的视频单帧作为表述空间信息的载体,其中包含环境、视频中的物体等空间信息,称为空间信息网络;另外,光流信息作为时序信息的载体输入到另外一个卷积神经网络中,用来理解动作的动态特征,称为时间信息网络。
考虑到光流是一种手工设计的特征,双流方法通常都无法实现端到端的学习。另外,随着行为识别领域数据集规模的不断扩大,由光流图的计算带来的巨大计算成本和存储空间消耗等问题使得基于光流的双流卷积神经网络不再适用于大规模数据集的训练和实时部署。另一方面,由于光流本身只使用于短时间的动作信息提取,所以此类网络无法解决长跨度动作的时间信息提取问题。
LSTM是循环神经网络中一种,该网络设计出来是为了解决某些动作的长依赖问题。在视频行为识别中很大一部分动作只需要空间特征就能够识别,但LSTM网络只能对短时的时间信息进行特征提取,无法很好地处理空间信息。相比于行为识别,LSTM更适合于动作定位任务,因此该类方法已逐渐被3D卷积等主流方法取代。在大规模数据集上较深的3D残差神经网络能够取得更好的效果。然而,由于视频信息在时空维度具有完全不同的分布方式和信息量,经典的3D卷积方法在时空维度并没有对此进行区分,计算了过多的冗余信息,从而带来了过高的计算代价以及部署成本。
当前已经存在很多基于双流网络架构的行为识别方法,但很多效果并不理想,主要是由于以下几个方面:由于时间维度信息与空间信息不平衡的问题,已有的行为识别方法受限于采样密度较低和时间跨度限制,对于一些变化缓慢或者变化较小动作如倾听,注视,打电话等,难以提取出有效的动作信息。对于部分需要依赖时间信息进行区分的动作,如讲话和唱歌,躺下和睡觉等,已有方法的效果不够理想。针对如何从冗余的视频信息中找到出含有动作信息的关键视频帧这一问题,目前的行为识别算法还未给出一个完善的解决方案。
发明内容
本发明的目的在于解决上述问题,提供一种行为速率引导的视频行为识别方法,旨在与解决视频中空间和时序信息的处理以及不同动作的时空倾向性问题。
为了实现上述的目的,本发明采用如下技术方案:
一种行为速率引导的视频行为识别方法,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并分别按高帧率和低帧率均匀的抽取所需数量的图片;
步骤二:使用低层卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量。为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。
步骤三:在Res3层后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;
步骤四:在3D卷积中提出基于特征差分的动作感知,对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权;
步骤五:使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;
步骤六:在两个路径的卷积网络提取完特征后,基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;
步骤七:对UCF-101数据集的行为识别数据进行训练建模,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
步骤三中,在残差网络的Res3层特征提取之后,将高帧率路径的时间特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息;
步骤四中,为了对动态信息进行加强,使用特征差分的方法。将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作。
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换。
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量。在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P。通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H]。使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E。为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
步骤五中,使用一个已经训练的卷积神经网络对训练集识别,可得到每帧图片的置信度,定义行为速率为置信度图中关键信息占总体信息的占比,即可求出每个类别动作的行为速率,行为速率计算公式为:
步骤六中,用对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大,说明该类别关键信息占总体占比较大,在时间维度分布较分散,这时应增大空间特征的权重,反之亦然,当行为速率较小,说明该类别关键信息较为集中,只有很小的时间窗口有有效信息,此时反映变化的时间特征就需要较大的权重。
与现有技术相比,本发明的优势如下:
本发明使用双路径架构,在不同的时间分辨率上对视频进行特征提取,相比于只使用固定帧率提取的网络,对长时动作能够更好地关注其时序信息;在时间和通道维度,使用基于特征差分的动作进行加权,能够通过特征变化对应的动态信息,相比于目前的双流网络模型,增强了网络对变化的时间和特征维度的感知能力,从而提高了识别的效率和准确率;在双路径特征融合部分,基于已训练模型在训练集上进行数据分析,提取出各类别的行为速率并用于双路径特征的倾向性融合,相比于现有模型的非倾向性方法,能够针对不同的动作类别使用不同的时空倾向性融合,使双路径的网络学习到更有针对性的特征信息,从而提高网络的识别准确率。
附图说明
图1为本发明的流程图;
图2为本发明的模型结构图。
具体实施方式
下面结合附图对本发明做进一步说明。
参见图1,本发明包括以下步骤:
步骤一:从摄像头或者本地获取视频数据,将输入的视频拆分成每秒32个图像帧,并按每秒T帧和T/8的帧率分别均匀地抽取的图片,在UCF-101数据集上,T=16。UCF101拥有来自101个动作类别的13320个视频,在动作方面具有多样性,并且在摄像机运动,人物外观和姿态,人体比例,视角,背景,照明条件等方面存在很大的差异,是行为识别领域十分具有挑战性的数据集;
步骤二:采用在Kinetics-400数据集上经过预训练的卷积神经网络ResNet3D对抽取的图片进行特征提取,获得对应的特征向量。ResNet采用了残差结构,很大程度上解决了随着网络的加深造成的梯度爆炸和梯度消失的问题。残差学习模块由主干的几个卷积层和分支的一条捷径(shortcut)组成。将残差学习模块的期望基础映射表示为:
在前向传播过程中,当浅层网络的x代表的特征已经足够成熟,若任何对于特征x的改变都会让loss值变大,会自动趋向于学习成为0,x则从恒等映射的路径继续传递。这样就在不增加计算成本的情况下解决了退化问题。即在网络的前向传播过程中,如果当浅层的输出已经足够成熟,则让其层数后面的层执行支路的映射,以此等效恒等映射。
在反向传播过程中,设第i层的残差结构的表达式为:
那么残差网络最终迭代输出表达式为:
其中L代表网络总层数,x1为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。在反向传播的过程中,根据链式法则,有:
其中ε为损失函数,L代表网络总层数,x1为第1层捷径上的恒等映射,xi为第i层捷径上的恒等映射,Wi代表第i层的参数矩阵。xL为最终的反向传播输出。
可见,由于加入了捷径的恒等映射x,返回的梯度分为两部分,其中保证了信息可以直接传递回任何浅层单元,而另一部分中,无论Wi为何值,不会持续为-1,因此返回的梯度值也就不会持续为0。这样就解决了梯度消失问题。
ResNet3D在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。
步骤三:在Res3层后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接。
步骤四:由于输入特征向量在时间和通道维度有较大差异,有的图片帧对识别任务有较大贡献,而有的通道贡献也较大,所以在3D卷积中提出基于特征差分的动作感知。对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权。将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H]。其中N为输入样本数。ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高。动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作。
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换。
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量。在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P。通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H]。使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E。为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
步骤五:使用一个已经训练的卷积神经网络对训练集识别,可得到每帧图片的置信度,定义行为速率为置信度图中关键信息占总体信息的占比,即可求出每个类别动作的行为速率,行为速率计算公式为:
步骤六:基于步骤四中计算出的各类的行为速率,可在两个路径的卷积网络提取完特征后,片对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。若一个类别的行为速率较大,说明该类别关键信息占总体占比较大,在时间维度分布较分散,这时应增大空间特征的权重,反之亦然,当行为速率较小,说明该类别关键信息较为集中,只有很小的时间窗口有有效信息,此时反映变化的时间特征就需要较大的权重;
步骤七:使用若干已标记的视频数据对模型进行训练;训练过程中使用反向传播,当损失较大时,不断更新模型参数,直到损失收敛到较小的值,保存为模型;
参见图2,本发明的模型具体结构包括以下部分:
模型使用双路径结构,高帧率路径提取的图片数较多但通道数较少,低帧率路径提取的图片数较少但通道数较多。高帧率路径提取的图片数为低帧率路径的p倍,高帧率路径特征的通道数为低帧率路径的q倍,在UCF-101数据集上,p=16,
Resl、Res2、Res3、Res4是ResNet3D的残差结构。选择在Kinetics-400数据集预训练的ResNet3D-50用来作为特征提取的骨干网络。
侧向连接部分将将高帧率路径提取的时间特征变化维度后合并到低帧率路径的空间特征。
TP为基于特征差分的动作感知部分,对合并后的特征使用差分的方法提取动态信息从而对时间和通道维度加权。
倾向性特征融合部分,基于计算出的各类别的行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合。
参见表1,使用在Kinetics-400上的预训练模型对UCF-101的行为识别数据进行训练建模,对UCF-101的split1分组进行测试,与同样使用3D卷积的C3D算法和同样使用了双流网络结构的TSN-RGB、Two-stream I3D以及TSN进行了准确率的对比,从实验结果可以看到,相比于主流的行为识别算法,本发明在同样的数据集上取得了更高的测试精度。
表1
Claims (6)
1.一种行为速率引导的视频行为识别方法,其特征在于,包括以下步骤:
步骤一:将输入的视频拆分成图像帧,并分别按高帧率每秒T帧和低帧率每秒T/8帧均匀抽取图片,其中T=16;
步骤二:使用低层卷积神经网络对抽取的图片进行特征提取,从而得到对应的特征向量,为了方便后续计算,将输入特征向量的维度表示为:
X=[N,C,ωT,W,H]
其中X为输入的特征向量维度,N为输入样本数,C为特征通道数,T为序列长度,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高;
步骤三:在Res3层特征提取之后,将高帧率路径提取的时间特征与低帧率路径的空间特征合并,形成侧向连接;
步骤四:在3D卷积中提出基于特征差分的动作感知,对合并后的特征使用基于特征差分的动作感知对时间和通道维度加权;
步骤五:使用一个已经训练的卷积神经网络对训练集识别,求出每个类别动作的行为速率;
步骤六:在两个路径的卷积网络提取完特征后,基于行为速率对高帧率路径提取出的时间特征和低帧率路径提取出的空间特征进行倾向性融合;
步骤七:对佛罗里达大学创建的公开数据集UCF-101的行为识别数据进行卷积神经网络模型训练,通过反向传播,当损失较大时,不断更新模型参数,直到损失收敛,测试模型的准确率。
2.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤二中,使用3D卷积网络进行特征提取,在保留ResNet残差结构的基础上,在卷积核增加了时间维度,卷积核不止在2D空间的滑动,还在时间维度上移动,从而提取帧间的关联特征。
3.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤三中,在残差网络的Res3层特征提取之后,将高帧率路径的时间特征通过侧向连接传输到低帧率路径,将高帧率路径提取时序信息与低帧率路径共享,保证了整个网络提取的特征既关注空间信息也关注时间信息。
4.根据权利要求1所述的一种行为速率引导的视频行为识别方法,其特征在于,步骤四中,为了对动态信息进行加强,使用特征差分的方法,将合并的特征向量作为输入,通过动作感知对时间和通道加权,设输入特征为X,X特征维度X=[N,C,ωT,W,H],此处X为一次卷积获得的特征,即ω=1,可得X=[N,C,T,W,H],其中N为输入样本数,ω为一次3D卷积中所取的片段长度,T为序列长度,W和H为特征的宽和高,动作感知的计算公式为:
首先,使用一个3D卷积层来降低通道数以提高计算效率
Xk=conv3D*X
式中:Xk表示通道减少后的特征,Xk特征维度为[N,C/k,T,W,H],k=16是减少的比率;conv3D表示使用大小为1的卷积核对通道维度进行降维操作;
对于运动特征向量的计算,使用前后两帧图片对应特征Xk(t+1)和Xk(t)之间的差来表示运动信息,即
P(t)=convshift*Xk(t+1)-Xk(t)
式中:P(t)是时间t时的动作特征向量,特征维度为[N,C/k,1,W,H],1≤t≤T-1;convshift是一个3×32通道卷积层,对每个通道进行转换;
假设T时刻动作已经结束,即T时刻已经没有动作特征,令P(T)为零特征向量,在计算出每个时刻的P(t)之后,构造出整个T帧序列的动作矩阵P,通过全局平均池化层激发对动作敏感的通道
Pl=pool(P)
式中Pl特征维度为[N,C/k,T,W,H],使用3D卷积层将动作特征的通道维度C/k扩展到原始通道维度C,再利用Sigmoid函数得到动作感知权值E
E=2Sigmoid(conv3D*Pl)-1
Sigmoid为S型激活函数,至此,得到了特征向量中各通道的动作相关性权重E,为了不影响原低帧率动作路径的空间特征信息,借鉴ResNet中残差连接的方法,在增强动作信息的同时保留原有的空间信息
XR=X+X⊙E
式中:XR是该模块的输出;⊙表示按通道的乘法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164283.8A CN114550047B (zh) | 2022-02-22 | 2022-02-22 | 一种行为速率引导的视频行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210164283.8A CN114550047B (zh) | 2022-02-22 | 2022-02-22 | 一种行为速率引导的视频行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114550047A true CN114550047A (zh) | 2022-05-27 |
CN114550047B CN114550047B (zh) | 2024-04-05 |
Family
ID=81677299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210164283.8A Active CN114550047B (zh) | 2022-02-22 | 2022-02-22 | 一种行为速率引导的视频行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550047B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997228A (zh) * | 2022-05-30 | 2022-09-02 | 平安科技(深圳)有限公司 | 基于人工智能的动作检测方法、装置、计算机设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2362636A1 (en) * | 2010-02-26 | 2011-08-31 | Research In Motion Limited | Object detection and selection using gesture recognition |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
US20200237266A1 (en) * | 2017-10-13 | 2020-07-30 | Huawei Technologies Co., Ltd. | Action recognition and pose estimation method and apparatus |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN113283298A (zh) * | 2021-04-26 | 2021-08-20 | 西安交通大学 | 基于时间注意力机制和双流网络的实时行为识别方法 |
CN113743306A (zh) * | 2021-09-06 | 2021-12-03 | 浙江广厦建设职业技术大学 | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 |
-
2022
- 2022-02-22 CN CN202210164283.8A patent/CN114550047B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2362636A1 (en) * | 2010-02-26 | 2011-08-31 | Research In Motion Limited | Object detection and selection using gesture recognition |
US20200237266A1 (en) * | 2017-10-13 | 2020-07-30 | Huawei Technologies Co., Ltd. | Action recognition and pose estimation method and apparatus |
CN109101896A (zh) * | 2018-07-19 | 2018-12-28 | 电子科技大学 | 一种基于时空融合特征和注意力机制的视频行为识别方法 |
CN110032942A (zh) * | 2019-03-15 | 2019-07-19 | 中山大学 | 基于时域分段及特征差分的动作识别方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN113283298A (zh) * | 2021-04-26 | 2021-08-20 | 西安交通大学 | 基于时间注意力机制和双流网络的实时行为识别方法 |
CN113743306A (zh) * | 2021-09-06 | 2021-12-03 | 浙江广厦建设职业技术大学 | 一种基于slowfast双帧速率的实时智能视频监控异常行为分析方法 |
Non-Patent Citations (4)
Title |
---|
FREDRO HARJANTO等: "Investigating the impact of frame rate towards robust human action recognition", 《SIGNAL PROCESSING》, vol. 124, pages 220 - 232, XP029461145, DOI: 10.1016/j.sigpro.2015.08.006 * |
YU ZHU等: "Fusing Spatiotemporal Features and Joints for 3D Action Recognition", 《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION WORKSHOPS》, pages 486 - 491 * |
张坤等: "MRTP:时间-动作感知的多尺度时间序列实时行为识别方法", 《西安交通大学学报》, pages 1 - 14 * |
林玲: "多模态特征融合的Kinect动态手势识别技术研究", 《信息科技辑》, no. 01, pages 6 - 47 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114997228A (zh) * | 2022-05-30 | 2022-09-02 | 平安科技(深圳)有限公司 | 基于人工智能的动作检测方法、装置、计算机设备及介质 |
CN114997228B (zh) * | 2022-05-30 | 2024-05-03 | 平安科技(深圳)有限公司 | 基于人工智能的动作检测方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114550047B (zh) | 2024-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175596B (zh) | 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法 | |
Ge et al. | An attention mechanism based convolutional LSTM network for video action recognition | |
CN113393474B (zh) | 一种基于特征融合的三维点云的分类和分割方法 | |
CN110516536B (zh) | 一种基于时序类别激活图互补的弱监督视频行为检测方法 | |
CN111091045A (zh) | 一种基于时空注意力机制的手语识别方法 | |
CN113283298B (zh) | 基于时间注意力机制和双流网络的实时行为识别方法 | |
CN107609460A (zh) | 一种融合时空双重网络流和attention机制的人体行为识别方法 | |
CN107506712A (zh) | 一种基于3d深度卷积网络的人类行为识别的方法 | |
CN111814611B (zh) | 一种嵌入高阶信息的多尺度人脸年龄估计方法及系统 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN114049381A (zh) | 一种融合多层语义信息的孪生交叉目标跟踪方法 | |
Zhou et al. | A lightweight hand gesture recognition in complex backgrounds | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
Xu et al. | Multi-scale skeleton adaptive weighted GCN for skeleton-based human action recognition in IoT | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
Ming et al. | 3D-TDC: A 3D temporal dilation convolution framework for video action recognition | |
CN113780249A (zh) | 表情识别模型的处理方法、装置、设备、介质和程序产品 | |
CN107066979A (zh) | 一种基于深度信息和多维度卷积神经网络的人体动作识别方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114550047A (zh) | 一种行为速率引导的视频行为识别方法 | |
CN114220169A (zh) | 一种基于Yolo-TSM的轻量级实时监控异常行为检测方法 | |
US20240177525A1 (en) | Multi-view human action recognition method based on hypergraph learning | |
CN115546491B (zh) | 一种跌倒报警方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |