CN112016461A - 一种多目标的行为识别方法及系统 - Google Patents
一种多目标的行为识别方法及系统 Download PDFInfo
- Publication number
- CN112016461A CN112016461A CN202010883352.1A CN202010883352A CN112016461A CN 112016461 A CN112016461 A CN 112016461A CN 202010883352 A CN202010883352 A CN 202010883352A CN 112016461 A CN112016461 A CN 112016461A
- Authority
- CN
- China
- Prior art keywords
- target
- module
- behavior recognition
- video frames
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 112
- 238000000605 extraction Methods 0.000 claims description 37
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 20
- 238000010586 diagram Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 13
- 238000011176 pooling Methods 0.000 claims description 10
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000004364 calculation method Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术,为多目标的行为识别方法及系统,其方法包括以下步骤:对视频帧进行目标检测,输出每一帧中全部目标的目标位置;对视频帧中的目标进行跟踪,获得视频帧的目标信息;抽取视频帧,对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,获得每个目标的视频序列;建立行为识别网络模型,根据每个目标的视频序列,对目标的行为进行识别,输出行为识别结果。本发明基于2D卷积神经网络的时空特征建模,模型参数少、计算量小,能够实现实时的目标行为检测、跟踪、行为识别。
Description
技术领域
本发明涉及计算机视觉技术,为一种多目标的行为识别方法及系统,可用于行政大厅、车辆驾驶室、教室等场所异常行为识别。
背景技术
行为识别,是指从给定的视频序列中分析出目标行为类别的技术,是计算机视觉中一个重要且又极具挑战性的研究热点,该技术可广泛应用于视频监控、智能家居、人机交互等领域。
行为识别发展至今,取得了很大的进展,各类行为识别算法层出不穷,但就整体应用而言,并不成熟,其难点主要体现在以下几个方面:(1).动作类间的界限模糊,动作类内变化大等因素,导致识别率低,误检率高;(2).易受遮挡、场景、摄像机移动、视角和光照变化等环境变化的影响;(3).异常行为数据难获取,标注难度大;(4).复杂动作识别有待突破。行为识别技术的关键在于时空特征建模与提取,特征提取过程受到以上方面的影响而具有很大的挑战性。
目前,常见的行为识别方法有:基于3D卷积的行为识别方法、基于LSTM网络的行为识别方法、基于光流法(或双流法)的行为识别方法、基于骨架的行为识别方法等。基于LSTM网络的行为识别方法对于时空特征建模能力较弱,导致行为识别精度差;基于光流法的行为识别方法虽然精度高,但识别速度慢,实际应用中难以做到实时;基于3D卷积的行为识别方法识别精度高,但3D卷积计算耗时;而基于骨架的行为识别方法,骨架提取环节耗时,还需结合传统的LSTM、CNN、SVM等方法,导致误差累积,整体精度不高。最近,比较火热的基于GCN(图卷积网络)的行为识别方法,精度虽高,但实际应用时存在推理速度慢等问题,还有待进一步研究。
从实际应用的角度讲,行为识别技术存在精度低、速度慢等缺点。尽管存在一些较为先进的行为识别方法,如:基于3D-CNN网络的行为识别方法、基于双流法的行为识别方法等,可以达到实时应用的效果,但受限于行为识别系统中的其他模块,整体识别效率依然是瓶颈。
发明内容
为解决现有技术所存在的技术问题,本发明提出一种多目标的行为识别方法及系统,基于2D卷积神经网络的时空特征建模,模型参数少、计算量小,能够实现实时的目标行为检测、跟踪、行为识别。
本发明识别方法采用以下技术方案来实现:多目标的行为识别方法,包括以下步骤:
S1、对视频帧进行目标检测,输出每一帧中全部目标的目标位置;
S2、对视频帧中的目标进行跟踪,获得视频帧的目标信息;
S3、抽取视频帧,对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列;
S4、建立行为识别网络模型,根据每个目标的视频序列,对目标的行为进行识别,输出目标的行为识别结果。
在本发明的一个实施例中,上述行为识别方法的步骤S3包括:
步骤S31、维护一个长度为一固定值m的数据队列,该数据队列从步骤S2获取视频帧的目标信息;从该数据队列中抽取一固定数量n的视频帧的目标信息,其中n<m;
步骤S32、将所抽取的n个视频帧的目标信息进行单目标位置并集运算,获得每个目标在不同视频帧中的共同位置;
步骤S33、根据每个目标的共同位置,拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列;
步骤S4的行为识别完毕后,将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息,并获取新的n个视频帧的目标信息补充至数据队列后面。
在本发明的一个实施例中,上述行为识别方法的步骤S4包括:
将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中,分别进行2D-CNN视频帧空间特征提取,其中n个主干网络共享权值;
提取视频帧的空间特征后,对n个视频帧的空间特征进行时间轴拼接,达到空间特征融合的目的;空间特征融合后得到的特征,通过PCM-ResNet网络进行时空特征学习与提取。
本发明识别系统采用以下技术方案来实现:多目标的行为识别系统,包括检测模块、跟踪模块、抽帧模块及行为识别模块;
检测模块用于对视频帧进行目标检测,输出每一帧中全部目标的目标位置;
跟踪模块用于对视频帧中的目标进行跟踪,获得视频帧的目标信息;
抽帧模块用于对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列;
行为识别模块用于建立行为识别网络模型,根据每个目标的视频序列,对目标的行为进行识别,输出目标的行为识别结果。
本发明与现有技术相比,具有如下优点和有益效果:
1、本发明基于2D卷积神经网络的时空特征建模,利用所建立的新型行为识别模型实现实时目标行为检测、跟踪、行为识别,还可与告警等功能模块一体化集成应用;与现有基于3D卷积的行为识别模型相比,模型参数少、计算量小,并可以有效利用现有加速库(因为是纯粹的2D网络模型)进行模型推理加速,从而达到高速、高精度行为识别落地应用的目的。
2、本发明提出的行为识别方法基于2D-CNN,该方法在保持高速、高精度行为识别效果的基础上,能有效减小模型参数规模,达到提高行为识别推理速度的目的;并在此基础上,还提出一种目标检测及行为识别的系统框架,达到多目标行为实时识别的目的。
附图说明
图1是本发明一种实施例中的行为识别方法流程图;
图2是本发明一种实施例中的行为识别系统方框图;
图3是本发明一种实施例中视频帧抽取方式的示意图;
图4是本发明一种实施例中目标框合并原理示意图;
图5是本发明一种实施例中行为识别网络模型的结构示意图;
图6是本发明一种实施例中PCM-ResNet网络结构示意图;
图7是本发明一种实施例中PCM模块结构示意图;
图8是PCM模块中第一支路的结构示意图;
图9是PCM模块中第二支路的结构示意图;
图10是PCM模块中第三支路的结构示意图;
图11是本发明另一实施例中PCM模块的结构示意图;
图12是本发明再一实施例中PCM模块的结构示意图;
图13是本发明实施例中提供的几种重塑模块结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例提出多目标的行为识别方法,主要包括目标检测、目标跟踪、视频帧抽取、行为识别以及告警等过程,具体如下:
S1、对视频帧进行目标检测,输出每一帧中全部目标的目标位置;
对连续输入的视频帧,使用检测模型(如Tiny-Yolo模型、Mobilenet-SSD模型等)对每一帧进行目标检测,输出每一帧所包含的全部目标的目标位置,每一个目标T的目标位置用一个矩形框表示:
Li j=(xi,yi,wi,hi)i
其中,i表示第i个视频帧,j表示在该视频帧下的第j个目标,x、y、w、h分别表示相应矩形框的左上角横坐标、左上角纵坐标、宽、高。
S2、对视频帧中的目标进行编号,基于交并比iou技术对视频帧中的目标进行跟踪,获得视频帧的目标信息;
从接收到第一个视频帧开始时,为每一视频帧中的每个目标进行编号,对第i个视频帧的编号如下:
并从接收第二个视频帧的目标位置信息开始,计算当前视频帧所有目标位置与上一视频帧所有目标位置的iou值:
表示第i个视频帧(即当前视频帧)中第k个目标与第i-1个视频帧(即上一视频帧)中所有目标的iou值。也就是说,对于第二个视频帧,计算其所有目标位置与第一个视频帧所有目标位置的iou值;对于第三个视频帧,计算其所有目标位置与第二个视频帧所有目标位置的iou值,依此类推。
即判断该目标为当前视频帧中新出现的目标。
S3、抽取视频帧,对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列;具体实现流程如下:
步骤S31、维护一个数据队列,该数据队列从步骤S2获取视频帧的目标信息(包括视频帧的编号及目标位置),该数据队列的长度为一固定值m,用于暂存m个视频帧的目标信息;从该数据队列中抽取一固定数量n的视频帧的目标信息,其中n<m;
从m个视频帧中抽取其中的n个,可以采用前面少取、后面多取的策略,也可以采用等间隔抽取的策略,还可以采用前面多取、后面少取的策略。以m=32,n=8为例,其中一种等间距抽取策略的示意图如图3所示,每个矩形代表一个视频帧的目标信息,矩形中的数字代表该帧在数据队列中的位置。图3所示的抽取策略中,从32个视频帧中等间隔抽取了第0、8、16、20、24、26、28、30共8个视频帧,用所抽取的8个视频帧的目标信息代表32个视频帧所包含的目标信息,降低了数据冗余度;其中,等间隔抽取,是指从m个视频帧中等间距抽取,所抽取n个视频帧中是跳跃相同数量的视频帧抽取得到的。
步骤S32、将上述步骤S31抽取的n个视频帧的目标信息进行单目标位置并集运算及过滤操作,获得每个目标在不同视频帧中的共同位置。
首先,如果得到的目标位置信息数量小于预设阈值cvalidT,则直接丢弃该目标:
if(len(Llabel)<cvalidT):
delete(Tlabel)
其中,Llabel表示目标Tlabel的所有信息。
如图4所示,以len(Llabel)=n=8为例,每个目标中的每一个实线矩形框代表该目标在n个不同视频帧中的位置虚线矩形框代表并集运算后的共同位置通过并集运算得到的每个目标的共同位置再经过面积过滤、长宽比过滤以及NMS(非极大值抑制)后,跳转至步骤S33。
采用并集运算获得每个目标在n个不同视频帧的共同位置,消除了视频帧拍摄过程中摄像机轻微运动、抖动等带来的干扰,提高了后续行为识别的精确度。此外,相邻两次并集运算中,有部分视频帧是重复的,从而保持目标动作的连续性,提高对目标进行行为识别的准确率。
步骤S33、根据步骤S32得出的每个目标的共同位置拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列,然后跳转至步骤S4。每个目标对应一个视频序列Γlabel,视频序列的长度为n(对应n个视频帧)。
S4、对目标的行为进行识别,输出目标的行为识别结果;
首先,设计一种PCM-ResNet行为识别网络模型,其中PCM为ParallellConvolution Module(平行卷积模块)的简称,将每个目标的n个视频帧图像输入PCM-ResNet网络中进行行为特征抽取。
本实施例所设计的行为识别网络模型结构如图5所示,主要实现的过程包括:空间特征提取、空间特征融合和时空特征提取三部分,其中ncls是行为类别个数。行为识别模型以Inception-V2部分网络(从conv1至inception3c)作为主干网络(Backbone),将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中,分别进行2D-CNN视频帧空间特征提取,并且n个主干网络通过共享权值的方式减少参数量;提取视频帧的空间特征后,对n个视频帧的空间特征进行时间轴拼接(Concatenate),达到空间特征融合的目的;空间特征融合后得到的特征,通过PCM-ResNet网络进行时空特征学习与提取;时空特征提取得到相应的特征后依次进行重塑(Reshape)、全局平均池化(Global Average Pooling,GAP)、全连接层(Fully Connected layer,FC)和Softmax函数操作,最后得到视频中目标的行为类别。本实施例在时空特征提取后、全局平均池化处理之前,对相应的时空特征进行重塑处理,其目的在于将相应的时空特征从五维张量(tensor)转成四维张量(tensor),这样就可以避免进行3D的全局平均池化操作,只用2D的全局平均池化操作就行了。
其中,PCM-ResNet网络通过PCM模块替换3D卷积神经网络中3D卷积获得;其中,3D卷积神经网络可以是3D-ResNet、3D-ResNet18或3D-ResNet50等,以3D-ResNet18为例,可选择从res3a至res5a部分。本发明改进后的PCM-ResNet网络如图6所示,包括相串联的两个PCM模块。其中,PCM模块的结构如图7所示。PCM模块的输入和输出均是五维的特征图数据,五个维度分别表示特征图的数量维度N、特征图的通道维度C、特征图的时间维度T、特征图的高度维度H以及特征图的宽度维度W。大小为(N,CI,TI,HI,WI)的五维输入特征图X进入3条支路,以数量维度N等于1为例,第一支路、第二支路、第三支路的结构分别如图8、图9、图10所示。
在第一支路,五维输入特征图X通过H维度重塑模块(Reshape Block),在TW视角进行重塑(Reshape),得到大小为(N,CI,TI,HI×WI)的四维特征图XTW;之后四维特征图XTW通过3x3卷积,得到大小为(N,CO,TO,HO×WO)的四维特征图YTW;四维特征图YTW通过恢复模块(Recover Block),复原为五维特征图,得到第一支路的输出。在第二支路,五维输入特征图X通过T维度重塑模块(Reshape Block),在HW视角进行重塑,得到大小为(N,CI,HI,TI×WI)的四维特征图XHW;之后四维特征图XHW通过3x3卷积,得到大小为(N,CO,HO,TO×WO)的四维特征图YHW;四维特征图YHW通过恢复模块(Recover Block),复原为五维特征图,得到第二支路的输出。在第三支路,五维输入特征图X通过W维度重塑模块(Reshape Block),在TH视角进行重塑,得到大小为(N,CI,TI,WI×HI)的四维特征图XTH;之后四维特征图XTH通过3x3卷积,得到大小为(N,CO,TO,WO×HO)的四维特征图YTH;四维特征图YTH通过恢复模块(RecoverBlock),复原为五维特征图,得到第三支路的输出。最后PCM模块对三个支路的输出相加,进行特征融合,输出大小为(N,CO,TO,HO,WO)的五维输出特征图Y,即输出目标的时空特征。
除了三支路结构的PCM模块,两支路的变形设计结构也能实现对行人目标的时空特征提取,如图11、12所示。在两支路的PCM模块中,其中一支路用于空间特征提取,另一支路用于时间特征提取。
各维度的重塑模块(Reshape Block)结构如图13所示。图13中,图(I)所示重塑模块包括2D池化层和重塑层;图(II)所示重塑模块包括1*1的卷积层、2D池化层、重塑层;图(III)所示重塑模块包括卷积层、2D池化层、重塑层;图(IV)所示重塑模块包括卷积层、1*1的卷积层、2D池化层、重塑层。
本步骤还根据五维输出特征图Y判断行为识别是否异常,对异常行为所属类别进行归类,统计各类异常行为出现的次数。
行为识别完毕后,将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息,并获取新的n个视频帧的目标信息补充至数据队列后面。也就是说,在本实施例中,视频帧抽取不是抽取数据队列的前n个视频帧,而是从数据队列中跳跃式抽取的;但在行为识别结束后,视频帧的丢弃是选取数据队列的前n个视频帧,因而数据队列中m个视频帧存在视频帧重复抽取、并集运算的情形;跳跃式抽取使得所抽取的n个视频帧相较于整个数据队列的m个视频帧而言,数据样本上具有较为典型的代表性,同时又兼顾降低了数据冗余度,减少了并集运算和行为识别的计算量;数据队列中的视频帧被重复抽取、并集运算,在保证目标动作的连续性的基础上,获得每个目标在n个不同视频帧的共同位置,消除了视频拍摄过程中产生的干扰。
S5、发出行为异常的告警信息
通过维护一个数据队列Γalarm,获取目标的行为识别结果。该数据队列Γalarm暂存每个目标最多k次的行为识别结果,当目标的行为识别结果出现系统预设的异常行为中同一类别的次数超过预设值calarm次,且该类别与最后一次识别结果一致时,系统将对该目标进行报警提示,输出该目标在不同视频帧中的共同位置及异常行为的类别。
实施例2
如图2所示,与实施例1基于相同的发明构思,本实施例提出多目标的行为识别系统,主要包括检测模块101、跟踪模块102、抽帧模块103、行为识别模块104以及告警模块105。
检测模块对连续输入的视频帧,使用检测模型(如Tiny-Yolo模型、Mobilenet-SSD模型等)对每一帧进行目标检测,输出每一帧所包含的全部目标的目标位置,每一个目标T的目标位置用实施例1中步骤S1所描述的矩形框表示。
跟踪模块用于实现实施例1中的步骤S2,负责为每个目标编号,基于交并比iou技术对视频帧中的目标进行跟踪。跟踪模块在接收到第一个视频帧时,为其中每个目标编号;跟踪模块从接收第二个视频帧的目标位置信息开始,计算该帧所有目标位置与上一帧所有目标位置的iou值,即对于第二个视频帧,计算其所有目标位置与第一个视频帧所有目标位置的iou值;对于第三个视频帧,计算其所有目标位置与第二个视频帧所有目标位置的iou值,依此类推。用ioui k表示第i个视频帧(即当前视频帧)中第k个目标Tk i与第i-1个视频帧(即上一视频帧)中所有目标Tk i-1的iou值,则跟踪模块获取ioui k中的最大值,当该最大值大于预设阈值ciou时,则判定该目标Tk i与前一视频帧中对应的目标Tji-m1ax为同一目标,如果在前一视频帧中找不到符合条件的目标,则判断该目标为当前视频帧中新出现的目标,并给该目标新编一个编号。
抽帧模块用于实现实施例1中的步骤S3,抽取视频帧后,对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列。抽帧模块维护一个数据队列,该数据队列从跟踪模块获取视频帧的目标信息;当系统运行时,每次从该数据队列中抽取一固定数量n的视频帧的目标信息,用于进行后续的计算,并将计算结果输出至行为识别模块,行为识别模块执行完毕后,该模块将丢弃数据队列中前n个视频帧的目标信息,并从跟踪模块获取新的n个视频帧的目标信息补充至数据队列后面。
行为识别模块用于实现实施例1的步骤S4,对目标的行为进行识别,输出目标的行为识别结果。行为识别模块设计了一种PCM-ResNet行为识别网络模型,如图5所示,包括依次连接的空间特征提取模块、空间特征融合模块和时空特征提取模块。其中,空间特征提取模块包括n个共享权值的主干网络,n个视频帧图像输入到n个主干网络中,分别进行2D-CNN视频帧空间特征提取;空间特征融合模块,将空间特征提取模块所提取的n个视频帧的空间特征进行时间轴拼接,达到空间特征融合的目的;时空特征提取模块采用PCM-ResNet网络,对空间特征融合后得到的特征进行时空特征提取;得到相应的时空特征后依次进行全局平均池化(Global Average Pooling,GAP)、全连接层(Fully Connected layer,FC)和Softmax函数操作,最后得到视频的行为类别。其中,PCM-ResNet网络如图6所示,包括两个PCM模块;而PCM模块的结构如图7所示,输入和输出均是五维的特征图数据,大小为(N,CI,TI,HI,WI)的五维输入特征图X进入PCM模块的3条支路,第一支路、第二支路、第三支路的结构分别如图8、图9、图10所示。三条支路的实现过程已在实施例1中进行了充分的描述,在此不赘述。行为识别模块还根据五维输出特征图Y判断行为识别是否异常,对异常行为所属类别进行归类,统计各类异常行为出现的次数。
报警模块用于实现实施例1的步骤S5,维护一个数据队列Γalarm,从行为识别模块获取目标的行为识别结果。该数据队列暂存每个目标最多k次的行为识别结果,当目标的行为识别结果出现系统预设的异常行为中同一类别的次数超过calarm次,且该类别与最后一次识别结果一致时,系统将对该目标进行报警提示,输出该目标在不同视频帧中的共同位置及异常行为的类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种多目标的行为识别方法,其特征在于,包括以下步骤:
S1、对视频帧进行目标检测,输出每一帧中全部目标的目标位置;
S2、对视频帧中的目标进行跟踪,获得视频帧的目标信息;
S3、抽取视频帧,对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列;
S4、建立行为识别网络模型,根据每个目标的视频序列,对目标的行为进行识别,输出目标的行为识别结果。
2.根据权利要求1所述的行为识别方法,其特征在于,步骤S3包括:
步骤S31、维护一个长度为一固定值m的数据队列,该数据队列从步骤S2获取视频帧的目标信息;从该数据队列中抽取一固定数量n的视频帧的目标信息,其中n<m;
步骤S32、将所抽取的n个视频帧的目标信息进行单目标位置并集运算,获得每个目标在不同视频帧中的共同位置;
步骤S33、根据每个目标的共同位置,拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列。
3.根据权利要求2所述的行为识别方法,其特征在于,步骤S31从m个视频帧中抽取其中的n个,采用前面少取、后面多取的策略,或采用等间隔抽取的策略,或采用前面多取、后面少取的策略。
4.根据权利要求1所述的行为识别方法,其特征在于,步骤S4包括:
将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中,分别进行2D-CNN视频帧空间特征提取,其中n个主干网络共享权值;
提取视频帧的空间特征后,对n个视频帧的空间特征进行时间轴拼接,达到空间特征融合的目的;空间特征融合后得到的特征,通过PCM-ResNet网络进行时空特征学习与提取。
5.根据权利要求4所述的行为识别方法,其特征在于,步骤S4还包括:
时空特征提取得到相应的特征后,依次进行全局平均池化、全连接层和Softmax函数操作,最后得到视频中目标的行为类别。
6.根据权利要求4所述的行为识别方法,其特征在于,PCM-ResNet网络包括PCM模块;PCM模块的输入和输出均是五维的特征图数据,五个维度分别表示特征图的数量维度N、特征图的通道维度C、特征图的时间维度T、特征图的高度维度H以及特征图的宽度维度W;PCM模块包括第一支路、第二支路及第三支路;
在第一支路,五维输入特征图X通过H维度重塑模块,在TW视角进行重塑,得到大小为(N,CI,TI,HI×WI)的四维特征图XTW;四维特征图XTW通过卷积得到大小为(N,CO,TO,HO×WO)的四维特征图YTW;四维特征图YTW通过恢复模块,复原为五维特征图,得到第一支路的输出;
在第二支路,五维输入特征图X通过T维度重塑模块,在HW视角进行重塑,得到大小为(N,CI,HI,TI×WI)的四维特征图XHW;四维特征图XHW通过卷积得到大小为(N,CO,HO,TO×WO)的四维特征图YHW;四维特征图YHW通过恢复模块,复原为五维特征图,得到第二支路的输出;
在第三支路,五维输入特征图X通过W维度重塑模块,在TH视角进行重塑,得到大小为(N,CI,TI,WI×HI)的四维特征图XTH;四维特征图XTH通过卷积得到大小为(N,CO,TO,WO×HO)的四维特征图YTH;四维特征图YTH通过恢复模块,复原为五维特征图,得到第三支路的输出;
PCM模块对三个支路的输出相加,进行特征融合,输出大小为(N,CO,TO,HO,WO)的五维输出特征图Y,即输出目标的时空特征。
7.根据权利要求6所述的行为识别方法,其特征在于,步骤S4还根据五维输出特征图Y判断行为识别是否异常,对异常行为所属类别进行归类,统计各类异常行为出现的次数;所述行为识别方法还包括:
S5、发出行为异常的告警信息:当目标的行为识别结果出现预设的异常行为中同一类别的次数超过预设值calarm次,且该类别与最后一次识别结果一致时,将对该目标进行报警提示,输出该目标在不同视频帧中的共同位置及异常行为的类别。
8.根据权利要求2所述的行为识别方法,其特征在于,步骤S4的行为识别完毕后,将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息,并获取新的n个视频帧的目标信息补充至数据队列后面。
9.一种多目标的行为识别系统,其特征在于,包括检测模块、跟踪模块、抽帧模块及行为识别模块;
检测模块用于对视频帧进行目标检测,输出每一帧中全部目标的目标位置;
跟踪模块用于对视频帧中的目标进行跟踪,获得视频帧的目标信息;
抽帧模块用于对目标信息进行单目标位置并集运算,得到每个目标在不同视频帧中的共同位置,进一步获得每个目标的视频序列;
行为识别模块用于建立行为识别网络模型,根据每个目标的视频序列,对目标的行为进行识别,输出目标的行为识别结果。
10.根据权利要求9所述的行为识别系统,其特征在于,所述抽帧模块维护一个长度为一固定值m的数据队列,该数据队列从跟踪模块获取视频帧的目标信息;从该数据队列中抽取一固定数量n的视频帧的目标信息,其中n<m;抽帧模块将所抽取的n个视频帧的目标信息进行单目标位置并集运算,获得每个目标在不同视频帧中的共同位置,再根据每个目标的共同位置,拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列;
所述行为识别模块将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中,分别进行2D-CNN视频帧空间特征提取,其中n个主干网络共享权值;提取视频帧的空间特征后,对n个视频帧的空间特征进行时间轴拼接,达到空间特征融合的目的;空间特征融合后得到的特征,通过PCM-ResNet网络进行时空特征学习与提取,得到视频的行为类别;判断行为识别是否异常,对异常行为所属类别进行归类,统计各类异常行为出现的次数;
所述行为识别系统还包括告警模块,用于当目标的行为识别结果出现预设的异常行为中同一类别的次数超过预设值calarm次,且该类别与最后一次识别结果一致时,将对该目标进行报警提示,输出该目标在不同视频帧中的共同位置及异常行为的类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010883352.1A CN112016461B (zh) | 2020-08-28 | 2020-08-28 | 一种多目标的行为识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010883352.1A CN112016461B (zh) | 2020-08-28 | 2020-08-28 | 一种多目标的行为识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016461A true CN112016461A (zh) | 2020-12-01 |
CN112016461B CN112016461B (zh) | 2024-06-11 |
Family
ID=73503711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010883352.1A Active CN112016461B (zh) | 2020-08-28 | 2020-08-28 | 一种多目标的行为识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112016461B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686923A (zh) * | 2020-12-31 | 2021-04-20 | 浙江航天恒嘉数据科技有限公司 | 一种基于双阶段卷积神经网络的目标跟踪方法及系统 |
CN113297914A (zh) * | 2021-04-26 | 2021-08-24 | 云南电网有限责任公司信息中心 | 一种配网现场作业验电动作识别方法 |
CN113591689A (zh) * | 2021-07-29 | 2021-11-02 | 安徽理工大学 | 一种煤和矸石rgb图像识别方法及其系统 |
CN113610750A (zh) * | 2021-06-03 | 2021-11-05 | 腾讯医疗健康(深圳)有限公司 | 对象识别方法、装置、计算机设备及存储介质 |
CN113763429A (zh) * | 2021-09-08 | 2021-12-07 | 广州市健坤网络科技发展有限公司 | 基于视频的猪只行为识别系统及方法 |
CN113822250A (zh) * | 2021-11-23 | 2021-12-21 | 中船(浙江)海洋科技有限公司 | 一种船舶驾驶异常行为检测方法 |
CN114973107A (zh) * | 2022-06-24 | 2022-08-30 | 山东省人工智能研究院 | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 |
WO2022228325A1 (zh) * | 2021-04-27 | 2022-11-03 | 中兴通讯股份有限公司 | 行为检测方法、电子设备以及计算机可读存储介质 |
CN119919454A (zh) * | 2025-04-02 | 2025-05-02 | 中国人民解放军军事航天部队航天工程大学 | 一种结合cnn和解码器的卫星视频单目标跟踪方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6614917B1 (en) * | 1999-10-22 | 2003-09-02 | Lockheed Martin Corporation | Dynamic process for identifying objects in multi-dimensional data |
CN101635835A (zh) * | 2008-07-25 | 2010-01-27 | 深圳市信义科技有限公司 | 智能视频监控方法及系统 |
WO2017129020A1 (zh) * | 2016-01-29 | 2017-08-03 | 中兴通讯股份有限公司 | 视频中人体行为识别的方法、装置和计算机存储介质 |
CN108320297A (zh) * | 2018-03-09 | 2018-07-24 | 湖北工业大学 | 一种视频目标实时跟踪方法及系统 |
CN109753884A (zh) * | 2018-12-14 | 2019-05-14 | 重庆邮电大学 | 一种基于关键帧提取的视频行为识别方法 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN109977773A (zh) * | 2019-02-18 | 2019-07-05 | 华南理工大学 | 基于多目标检测3d cnn的人体行为识别方法及系统 |
CN110113116A (zh) * | 2019-05-14 | 2019-08-09 | 山东科技大学 | 基于wifi信道信息的人体行为识别方法 |
CN110378245A (zh) * | 2019-06-26 | 2019-10-25 | 平安科技(深圳)有限公司 | 基于深度学习的足球比赛行为识别方法、装置及终端设备 |
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110427839A (zh) * | 2018-12-26 | 2019-11-08 | 西安电子科技大学 | 基于多层特征融合的视频目标检测方法 |
CN110852190A (zh) * | 2019-10-23 | 2020-02-28 | 华中科技大学 | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 |
US20200086879A1 (en) * | 2018-09-14 | 2020-03-19 | Honda Motor Co., Ltd. | Scene classification prediction |
-
2020
- 2020-08-28 CN CN202010883352.1A patent/CN112016461B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6614917B1 (en) * | 1999-10-22 | 2003-09-02 | Lockheed Martin Corporation | Dynamic process for identifying objects in multi-dimensional data |
CN101635835A (zh) * | 2008-07-25 | 2010-01-27 | 深圳市信义科技有限公司 | 智能视频监控方法及系统 |
WO2017129020A1 (zh) * | 2016-01-29 | 2017-08-03 | 中兴通讯股份有限公司 | 视频中人体行为识别的方法、装置和计算机存储介质 |
CN108320297A (zh) * | 2018-03-09 | 2018-07-24 | 湖北工业大学 | 一种视频目标实时跟踪方法及系统 |
US20200086879A1 (en) * | 2018-09-14 | 2020-03-19 | Honda Motor Co., Ltd. | Scene classification prediction |
CN109753884A (zh) * | 2018-12-14 | 2019-05-14 | 重庆邮电大学 | 一种基于关键帧提取的视频行为识别方法 |
CN110427839A (zh) * | 2018-12-26 | 2019-11-08 | 西安电子科技大学 | 基于多层特征融合的视频目标检测方法 |
CN109858419A (zh) * | 2019-01-23 | 2019-06-07 | 广州智慧城市发展研究院 | 一种自下而上-自上而下的行为识别系统 |
CN109977773A (zh) * | 2019-02-18 | 2019-07-05 | 华南理工大学 | 基于多目标检测3d cnn的人体行为识别方法及系统 |
CN110113116A (zh) * | 2019-05-14 | 2019-08-09 | 山东科技大学 | 基于wifi信道信息的人体行为识别方法 |
CN110390259A (zh) * | 2019-06-11 | 2019-10-29 | 中国科学院自动化研究所南京人工智能芯片创新研究院 | 图数据的识别方法、装置、计算机设备和存储介质 |
CN110378245A (zh) * | 2019-06-26 | 2019-10-25 | 平安科技(深圳)有限公司 | 基于深度学习的足球比赛行为识别方法、装置及终端设备 |
CN110852190A (zh) * | 2019-10-23 | 2020-02-28 | 华中科技大学 | 一种融合目标检测与手势识别的驾驶行为识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
KAIFENG ZHANG等: "Automated Video Behavior Recognition of Pigs Using Two-Stream Convolutional Networks", SENSORS 2020, vol. 20, no. 4, pages 1 - 17 * |
张聪聪等: "基于关键帧的双流卷积网络的人体动作识别方法", 南京信息工程大学学报(自然科学版), no. 6, pages 96 - 101 * |
舒浩浩: "基于深度卷积神经网络模型的运动目标检测研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 7, pages 138 - 953 * |
高阳: "基于双流卷积神经网络的监控视频中打斗行为识别研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 12, pages 138 - 1584 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686923A (zh) * | 2020-12-31 | 2021-04-20 | 浙江航天恒嘉数据科技有限公司 | 一种基于双阶段卷积神经网络的目标跟踪方法及系统 |
CN113297914A (zh) * | 2021-04-26 | 2021-08-24 | 云南电网有限责任公司信息中心 | 一种配网现场作业验电动作识别方法 |
WO2022228325A1 (zh) * | 2021-04-27 | 2022-11-03 | 中兴通讯股份有限公司 | 行为检测方法、电子设备以及计算机可读存储介质 |
CN113610750A (zh) * | 2021-06-03 | 2021-11-05 | 腾讯医疗健康(深圳)有限公司 | 对象识别方法、装置、计算机设备及存储介质 |
CN113610750B (zh) * | 2021-06-03 | 2024-02-06 | 腾讯医疗健康(深圳)有限公司 | 对象识别方法、装置、计算机设备及存储介质 |
CN113591689A (zh) * | 2021-07-29 | 2021-11-02 | 安徽理工大学 | 一种煤和矸石rgb图像识别方法及其系统 |
CN113763429A (zh) * | 2021-09-08 | 2021-12-07 | 广州市健坤网络科技发展有限公司 | 基于视频的猪只行为识别系统及方法 |
CN113822250A (zh) * | 2021-11-23 | 2021-12-21 | 中船(浙江)海洋科技有限公司 | 一种船舶驾驶异常行为检测方法 |
CN114973107A (zh) * | 2022-06-24 | 2022-08-30 | 山东省人工智能研究院 | 基于多鉴别器协同和强弱共享机制的无监督跨域视频动作识别方法 |
CN119919454A (zh) * | 2025-04-02 | 2025-05-02 | 中国人民解放军军事航天部队航天工程大学 | 一种结合cnn和解码器的卫星视频单目标跟踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112016461B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016461A (zh) | 一种多目标的行为识别方法及系统 | |
CN110427839B (zh) | 基于多层特征融合的视频目标检测方法 | |
CN114972418A (zh) | 基于核自适应滤波与yolox检测结合的机动多目标跟踪方法 | |
Ippalapally et al. | Object detection using thermal imaging | |
CN111680655A (zh) | 一种面向无人机航拍影像的视频目标检测方法 | |
CN108447078A (zh) | 基于视觉显著性的干扰感知跟踪算法 | |
CN107025420A (zh) | 视频中人体行为识别的方法和装置 | |
CN111626090B (zh) | 一种基于深度帧差卷积神经网络的运动目标检测方法 | |
CN114821374B (zh) | 一种知识与数据协同驱动的无人机航拍目标检测方法 | |
CN112801027A (zh) | 基于事件相机的车辆目标检测方法 | |
CN111199255A (zh) | 基于darknet53网络的小目标检测网络模型及检测方法 | |
Deng et al. | Pedestrian detection by fusion of RGB and infrared images in low-light environment | |
CN103106796A (zh) | 智能交通监控系统中的车辆检测方法和装置 | |
CN114170570A (zh) | 一种适用于拥挤场景下的行人检测方法及系统 | |
Han et al. | A method based on multi-convolution layers joint and generative adversarial networks for vehicle detection | |
Xia et al. | Unsupervised optical flow estimation with dynamic timing representation for spike camera | |
CN118570760A (zh) | 一种夜间行人检测方法、计算机设备、装置及存储介质 | |
CN112149596A (zh) | 一种异常行为检测方法、终端设备及存储介质 | |
CN112200840A (zh) | 一种可见光和红外图像组合中的运动物体检测系统 | |
CN110807789A (zh) | 图像处理方法、模型、装置、电子设备及可读存储介质 | |
CN117831119A (zh) | 一种打架识别方法、系统及其存储介质 | |
CN116935325A (zh) | 一种基于检测和跟踪的公交站台遗留物检测方法 | |
CN117036412A (zh) | 一种融合可变形卷积的孪生网络红外行人目标跟踪方法 | |
CN116682078A (zh) | 一种基于改进ByteTrack的车辆行人在线检测与跟踪方法 | |
Wzorek et al. | Pedestrian detection with high-resolution event camera |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 518000 1001, building T3, Hualian Business Center, Nanshan community, Nanshan street, Nanshan District, Shenzhen City, Guangdong Province Patentee after: Shenzhen Radio & TV Xinyi Technology Co.,Ltd. Country or region after: China Address before: 518000 1001, building T3, Hualian Business Center, Nanshan community, Nanshan street, Shenzhen City, Guangdong Province Patentee before: SHENZHEN XINYI TECHNOLOGY Co.,Ltd. Country or region before: China |