CN112131943B - 一种基于双重注意力模型的视频行为识别方法及系统 - Google Patents
一种基于双重注意力模型的视频行为识别方法及系统 Download PDFInfo
- Publication number
- CN112131943B CN112131943B CN202010844141.7A CN202010844141A CN112131943B CN 112131943 B CN112131943 B CN 112131943B CN 202010844141 A CN202010844141 A CN 202010844141A CN 112131943 B CN112131943 B CN 112131943B
- Authority
- CN
- China
- Prior art keywords
- feature
- attention model
- initial
- matrix
- channel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 230000009977 dual effect Effects 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 78
- 239000011159 matrix material Substances 0.000 claims description 73
- 238000011176 pooling Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 25
- 238000012545 processing Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000178 monomer Substances 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011273 social behavior Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Psychiatry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双重注意力模型的视频行为方法及系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
Description
技术领域
本发明涉及行为识别技术领域,具体涉及一种基于双重注意力模型的视频行为识别方法及系统。
背景技术
近年来,行为识别算法发展迅速,基于深度学习的群体行为识别也取得了良好的效果。邓等提出了分层图模型组合,在神经网络层之间使用了多步信息传递方法。Li和Chuah提出了一种基于语义的方法,该方法为每个视频帧生成字幕,使用two-stage LSTM模型基于每个视频的语义字幕识别群体行为。Bagautdinov等建立了一个统一的框架来理解多人的社会行为。他们的框架能够共同检测多个人,推断他们的社交行为,并通过神经网络进一步预测群体行为。
行为识别既包括单人执行一系列动作以完成某项任务,即个人行为识别,也包括许多人分散在一个大的空间里,共同努力完成一个共同的任务,即群体行为识别。在群体识别任务中,层次化的框架被广泛应用于表征个体之间以及个体与对应群体之间的关系,取得了较好的识别性能。但是,现有的方法只是简单的应用全局特征到网络框架,忽略了加强全局特征和局部特征中相对重要的特征,这导致图像或视频的重要部分不能被重点关注,使得行为识别结果准确率较低。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中视频行为识别方法导致重要部分不能被重点关注,使得行为识别准确率结果较低的缺陷,从而提供一种双重注意力模型的视频行为识别方法及系统。
为达到上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供基于双重注意力模型的视频行为识别方法,包括如下步骤:
获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS;
基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC;
将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
在一实施例中,将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS的过程,包括:
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
其中,α为尺度参数,
被初始化为0,在学习中α逐渐被分配更多的权重。
在一实施例中,初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC的过程,包括:
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=scAc
在一实施例中,获取待识别视频的初始特征A的过程,包括:对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A。
在一实施例中,基于所述新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果。
在一实施例中,基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
第二方面,本发明实施例提供基于双重注意力模型的视频行为识别系统,包括:
初始特征获取模块,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
空间注意力模型处理模块,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS;
通道注意力模型处理模块,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC;
特征融合模块,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
行为识别模块,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
第三方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。
第四方面,本发明实施例提供一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例第一方面的基于双重注意力模型的视频行为识别方法。
本发明技术方案,具有如下优点:
本发明提供的一种基于双重注意力模型的视频行为方法及系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于双重注意力模型的视频行为识别方法的一个具体示例的工作流程图;
图2为本发明实施例中空间注意力模型的示意图;
图3为本发明实施例中通道注意力模型的示意图;
图4为本发明实施例中双重注意力模型的示意图;
图5为本发明实施例中基于双重注意力模型的视频行为系统的一个具体示例的模块组成图;
图6为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供一种基于双重注意力模型的视频行为识别方法,可以应用于多种视频行为识别等场景,比如体育视频,包括精彩片断提取与传输、视频摘要、视频浏览与检索、球和运动员的检测与跟踪、行为与动作分析及索引、战术统计与策略分析、虚拟内容插入以及虚拟场景构造等等,几乎在所有运动中,例如棒球、足球、网球、排球等,都存在着体育视频行为识别,在这些体育比赛中,行为识别既包括单人执行一系列动作以完成某项任务,即个人行为识别,也包括许多人分散在一个大的空间里,共同努力完成一个共同的任务,即群体行为识别。
如图1所示,该方法具体包括如下步骤:
步骤S10:获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型。
本发明实施例中以排球比赛视频作为待识别视频作为举例,在排球运动中,由于不同队伍间的行为变化不同,队伍内部整体队员的运动方向具有一定的规律性,队员间的队服颜色一致。例如在排球比赛视频图像中,左侧队伍防守,右侧队伍处于进攻状态,右侧队员的整体进攻方向为从右向左,且右侧队伍的队服为白色,在运动方向相同的局部图像斑块中,它们具有相似的局部图案和纹理特征,基于此,本发明认为具有可区分性的特征表示对于行为识别是至关重要的。本发明提供的双重注意力模型,如图4所示,包括:空间注意力模型和通道注意力模型,其不仅仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力。
其中,空间注意力模型如图2所示,该模型能够将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征。目前的大多数卷积神经网络中融合不同特征的普遍方法是相加或者拼接,这样会造成对特征图的各个通道信息均采用了同样的权重,目标的特征信息没有被增强。本发明实施例引入面向视频的通道注意力模型,该模型如图3所示,对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。
本发明实施例对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A,并行输入到空间注意力模型和通道注意力模型。
步骤S20:基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS。
本发明实施例中,首先将初始特征输入卷积层中,分别生成两个新的特征图B和C,其中/>将特征图B和特征图C变维为/>其中N=H×W是像素数,H为像素高度,W为像素宽度,C为特征图的通道。其中,新的特征图B和C分别如式(1)(2)所示。
其中,Ac、Bc、Cc表示第c个通道的特征图,K表示卷积核,f(·)表示激活函数,bc是卷积后特征图的偏置。
两个位置的特征表示越相似,表征它们之间的相关性就越大,Softmax激活函数多用于分类过程中,它的作用是将神经元节点的输出映射为一列取值为(0,1)区间的概率向量,然后计算每一分类的概率进行多分类,选取对应概率最大的节点作为预测目标。
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重。从式(5)可以看出,每个位置的特征是所有位置和原始特征的加权和,逐像素相乘的方式获取到了不同像素之间的关联信息。因此空间注意力模型在语义信息方面具有全局性,并根据空间注意力矩阵选择性地聚合语义信息,相似的语义特征实现了相互增益,从而增强了类内紧凑性和语义一致性。
步骤S30:基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC。
其中Ac为输入特征图A的第c个通道,Ac(i,j)指第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符,特征图A的输出为全局描述符的集合,这些全局描述符的统计信息表示整个图像。
经过上述操作后,网络仅仅得到了一个全局描述符,这个描述符并不能作为该通道的权重,描述符用于描述各个通道,为了利用全局描述生成的信息,将全局描述符经过级联的两个全连接层即FC层、ReLu激活函数、Sigmod激活函数,获取通道间的相关性,详细过程为:
输入全局描述经过全连接层,将其缩放变成其中r为缩放参数。两个全连接层一个RELU函数和Sigmoid激活函数用来获取通道间的相关性,全连接层能够很好的融合全部的输入特征信息,而Sigmoid函数也能够很好的将输入映射到0~1区间。最终得到经过缩放的全局描述,该操作旨在捕获特征图中通道间的相关性S,如式(7)所示。
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z)) (7)
获取到通道间的相关性S之后,将S与原输入A逐通道Hadamard相乘,得到通过通道注意力模型的特征表示MC:
MC=Fscale(Ac,sc)=scAc (8)
将特征图进行融合之后,原来的特征输入信息就融合了通道信息权重,然后将新得到的特征图MC作为该模型的输出传入到网络的下一层。
步骤S40:将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D。
步骤S50:
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别
本发明实施例基于新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果;
基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
本发明实施例提供的基于双重注意力模型的视频行为方法,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
实施例2
本发明实施例提供一种基于双重注意力模型的视频行为系统,如图5所示,包括:
初始特征获取模块10,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型。此模块执行实施例1中的步骤S10所描述的方法,在此不再赘述。
空间注意力模型处理模块20,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS。此模块执行实施例1中的步骤S20所描述的方法,在此不再赘述。
通道注意力模型处理模块30,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC。此模块执行实施例1中的步骤30所描述的方法,在此不再赘述。
特征融合模块40,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;此模块执行实施例1中的步骤40所描述的方法,在此不再赘述。
行为识别模块50,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。此模块执行实施例1中的步骤50所描述的方法,在此不再赘述。
本发明实施例提供的基于双重注意力模型的视频行为识别系统,利用空间注意力模型将图像的全局特征和局部特征间的依赖关系进行结合,对特征信息进行筛选,抑制非目标区域的特征,使得网络在特征提取过程中更关注目标区域特征;利用通道注意力模型对特征的通道信息进行建模,捕获每个特征图中各通道之间的依赖性,增强重要特征并抑制次要特征。因此本申请提供的视频行为识别方法,不仅考虑到了视频图像中不同像素之间的关联信息,同时也考虑到特征图中各通道间的依赖性,一定程度上提升特征的判别能力和特征的表示能力,提高单人行为和群体行为的识别准确率,并且具有更高的精度和鲁棒性。
实施例3
本发明实施例提供一种计算机设备,如图6所示,该设备可以包括处理器51和存储器52,其中处理器51和存储器52可以通过总线或者其他方式连接,图6以通过总线连接为例。
处理器51可以为中央处理器(Central Processing Unit,CPU)。处理器51还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器52作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的对应的程序指令/模块。处理器51通过运行存储在存储器52中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例1中的基于多接入点的毫米波室内定位与角度估计方法。
存储器52可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器51所创建的数据等。此外,存储器52可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器52可选包括相对于处理器51远程设置的存储器,这些远程存储器可以通过网络连接至处理器51。上述网络的实例包括但不限于互联网、企业内部网、企业内网、移动通信网及其组合。
一个或者多个模块存储在存储器52中,当被处理器51执行时,执行实施例1中的基于多接入点的毫米波室内定位与角度估计方法。
上述计算机设备具体细节可以对应参阅实施例1中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (7)
1.一种基于双重注意力模型的视频行为识别方法,其特征在于,包括如下步骤:
获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS,包括:
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重;
基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数处理,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC,包括:
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=sc Ac
将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
2.根据权利要求1所述的基于双重注意力模型的视频行为识别方法,其特征在于,获取待识别视频的初始特征A的过程,包括:
对待识别视频进行多级特征提取后,利用深度全卷积网络对ROI进行初检测;
利用马尔科夫随机场进行ROI的微调,获得最终ROI集合作为初始特征A。
3.根据权利要求2所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于单人行为识别,将目标识别对象的ROI时间序列进行时序推理,通过接入两个全连接层和Softmax层得到单人行为的预测结果。
4.根据权利要求3所述的基于双重注意力模型的视频行为识别方法,其特征在于,基于所述新特征D对于群体行为识别,使用ROI匹配递归卷积网络进行群体行为的时序建模,生成群体行为的预测结果。
5.一种基于双重注意力模型的视频行为识别系统,其特征在于,包括:
初始特征获取模块,用于获取待识别视频的初始特征A输入到双重注意力模型,其中双重注意力模型包括:空间注意力模型和通道注意力模型;
空间注意力模型处理模块,用于基于空间注意力模型对初始特征A的处理,包括:将初始特征A经过卷积层后输出空间注意力矩阵,所述空间注意力矩阵和初始特征进行矩阵乘法得到矩阵相乘矩阵,将矩阵相乘矩阵和初始特征执行基于元素的加法操作,生成新特征MS,包括:
对特征图B的转置和特征图C执行矩阵乘法,得到转置矩阵;
其中,α为尺度参数,被初始化为0,在学习中α逐渐被分配更多的权重;
通道注意力模型处理模块,用于基于通道注意力模型对初始特征A的处理,包括:将初始特征A分别进行全局平均池化和全局最大池化,合并生成全局描述符;将全局描述符全局描述符经过级联的全连接层和激活函数,获取通道间的相关性;基于通道间的相关性获取初始特征A的各个通道的权重;将注意力权重与初始特征A进行融合,生成新特征MC,包括:
其中,AC为初始特征A的第c个通道,Ac(i,j)为第c个通道内位置为(i,j)的图像像素值,Fpool为全局池化,zavg,zmax为两路不同池化方法输出的全局描述符;
s=Fex(z,W)=σ(g(z,W))=σ(W2δ(W1z))
将相关性S与初始特征A通道矩阵相乘,得到通过通道注意力模型的特征表示MC,通过以下公式表示:
MC=Fscale(Ac,sc)=scAc
特征融合模块,用于将新特征MS和新特征MC进行加权融合到初始特征A中,获得新特征D;
行为识别模块,用于基于所述新特征D对待识别视频分别进行单体行为和群体行为识别。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行如权利要求1-4任一项所述的基于双重注意力模型的视频行为识别方法。
7.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-4任一项所述的基于双重注意力模型的视频行为识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010844141.7A CN112131943B (zh) | 2020-08-20 | 2020-08-20 | 一种基于双重注意力模型的视频行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010844141.7A CN112131943B (zh) | 2020-08-20 | 2020-08-20 | 一种基于双重注意力模型的视频行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131943A CN112131943A (zh) | 2020-12-25 |
CN112131943B true CN112131943B (zh) | 2023-07-11 |
Family
ID=73851709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010844141.7A Active CN112131943B (zh) | 2020-08-20 | 2020-08-20 | 一种基于双重注意力模型的视频行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131943B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239822A (zh) * | 2020-12-28 | 2021-08-10 | 武汉纺织大学 | 基于时空双流卷积神经网络的危险行为检测方法及系统 |
CN113569607A (zh) * | 2021-01-29 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、设备以及存储介质 |
CN112926485B (zh) * | 2021-03-15 | 2022-09-23 | 河海大学 | 一种少样本水闸图像分类方法 |
CN113297964B (zh) * | 2021-05-25 | 2022-11-15 | 周口师范学院 | 基于深度迁移学习的视频目标识别模型及方法 |
CN113223181B (zh) * | 2021-06-02 | 2022-12-23 | 广东工业大学 | 一种弱纹理物体位姿估计方法 |
CN113255821B (zh) * | 2021-06-15 | 2021-10-29 | 中国人民解放军国防科技大学 | 基于注意力的图像识别方法、系统、电子设备及存储介质 |
CN113255570B (zh) * | 2021-06-15 | 2021-09-24 | 成都考拉悠然科技有限公司 | 一种感知视频片段关系的时序动作检测方法 |
CN113344146B (zh) * | 2021-08-03 | 2021-11-02 | 武汉大学 | 基于双重注意力机制的图像分类方法、系统及电子设备 |
CN113963202A (zh) * | 2021-10-19 | 2022-01-21 | 郑州大学 | 一种骨骼点动作识别方法、装置、电子设备及存储介质 |
CN113673489B (zh) * | 2021-10-21 | 2022-04-08 | 之江实验室 | 一种基于级联Transformer的视频群体行为识别方法 |
CN113989940B (zh) * | 2021-11-17 | 2024-03-29 | 中国科学技术大学 | 视频数据中动作识别方法、系统、设备与存储介质 |
CN114332715A (zh) * | 2021-12-30 | 2022-04-12 | 武汉华信联创技术工程有限公司 | 气象自动观测积雪识别方法、装置、设备及存储介质 |
CN114125454A (zh) * | 2022-01-26 | 2022-03-01 | 广东电网有限责任公司中山供电局 | 一种视频图像编码系统及方法 |
CN114842411A (zh) * | 2022-04-02 | 2022-08-02 | 深圳先进技术研究院 | 一种基于互补时空信息建模的群体行为识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110110689A (zh) * | 2019-05-15 | 2019-08-09 | 东北大学 | 一种行人重识别方法 |
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN111126488A (zh) * | 2019-12-24 | 2020-05-08 | 威创集团股份有限公司 | 一种基于双重注意力的图像识别方法 |
CN111401174A (zh) * | 2020-03-07 | 2020-07-10 | 北京工业大学 | 一种基于多模态信息融合的排球群体行为识别方法 |
-
2020
- 2020-08-20 CN CN202010844141.7A patent/CN112131943B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871777A (zh) * | 2019-01-23 | 2019-06-11 | 广州智慧城市发展研究院 | 一种基于注意力机制的行为识别系统 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110110689A (zh) * | 2019-05-15 | 2019-08-09 | 东北大学 | 一种行人重识别方法 |
CN110188685A (zh) * | 2019-05-30 | 2019-08-30 | 燕山大学 | 一种基于双注意力多尺度级联网络的目标计数方法及系统 |
CN111126488A (zh) * | 2019-12-24 | 2020-05-08 | 威创集团股份有限公司 | 一种基于双重注意力的图像识别方法 |
CN111401174A (zh) * | 2020-03-07 | 2020-07-10 | 北京工业大学 | 一种基于多模态信息融合的排球群体行为识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112131943A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131943B (zh) | 一种基于双重注意力模型的视频行为识别方法及系统 | |
Pan et al. | DACNN: Blind image quality assessment via a distortion-aware convolutional neural network | |
Ding et al. | Trunk-branch ensemble convolutional neural networks for video-based face recognition | |
Wang et al. | Detect globally, refine locally: A novel approach to saliency detection | |
Zhu et al. | Visdrone-det2018: The vision meets drone object detection in image challenge results | |
Cong et al. | An iterative co-saliency framework for RGBD images | |
Xu et al. | Deep image matting | |
Wen et al. | Visdrone-sot2018: The vision meets drone single-object tracking challenge results | |
CN111047626B (zh) | 目标跟踪方法、装置、电子设备及存储介质 | |
Bhattacharjee et al. | Temporal coherency based criteria for predicting video frames using deep multi-stage generative adversarial networks | |
Pezzementi et al. | Putting image manipulations in context: robustness testing for safe perception | |
CN113011329A (zh) | 一种基于多尺度特征金字塔网络及密集人群计数方法 | |
CN110166826B (zh) | 视频的场景识别方法、装置、存储介质及计算机设备 | |
Fang et al. | Deep3DSaliency: Deep stereoscopic video saliency detection model by 3D convolutional networks | |
CN113591560B (zh) | 人体行为识别方法 | |
Kim et al. | Multiple level feature-based universal blind image quality assessment model | |
CN114663593B (zh) | 三维人体姿态估计方法、装置、设备及存储介质 | |
Tsagkatakis et al. | Goal!! event detection in sports video | |
CN112131944B (zh) | 一种视频行为识别方法及系统 | |
Ahmadi et al. | Efficient and fast objects detection technique for intelligent video surveillance using transfer learning and fine-tuning | |
Ding et al. | Pyramid context learning for object detection | |
Şah et al. | Review and evaluation of player detection methods in field sports: Comparing conventional and deep learning based methods | |
CN113361466A (zh) | 一种基于多模态交叉指导学习的多光谱目标检测方法 | |
Tang et al. | Deep saliency quality assessment network with joint metric | |
Roy et al. | Predicting image aesthetics using objects in the scene |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |