CN112016461A

CN112016461A - 一种多目标的行为识别方法及系统

Info

Publication number: CN112016461A
Application number: CN202010883352.1A
Authority: CN
Inventors: 黄跃珍; 王乃洲; 赵清利; 梁添才
Original assignee: Shenzhen Xinyi Technology Co Ltd
Current assignee: Shenzhen Radio & Tv Xinyi Technology Co ltd
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-01
Anticipated expiration: 2040-08-28
Also published as: CN112016461B

Abstract

本发明涉及计算机视觉技术，为多目标的行为识别方法及系统，其方法包括以下步骤：对视频帧进行目标检测，输出每一帧中全部目标的目标位置；对视频帧中的目标进行跟踪，获得视频帧的目标信息；抽取视频帧，对目标信息进行单目标位置并集运算，得到每个目标在不同视频帧中的共同位置，获得每个目标的视频序列；建立行为识别网络模型，根据每个目标的视频序列，对目标的行为进行识别，输出行为识别结果。本发明基于2D卷积神经网络的时空特征建模，模型参数少、计算量小，能够实现实时的目标行为检测、跟踪、行为识别。

Description

一种多目标的行为识别方法及系统

技术领域

本发明涉及计算机视觉技术，为一种多目标的行为识别方法及系统，可用于行政大厅、车辆驾驶室、教室等场所异常行为识别。

背景技术

行为识别，是指从给定的视频序列中分析出目标行为类别的技术，是计算机视觉中一个重要且又极具挑战性的研究热点，该技术可广泛应用于视频监控、智能家居、人机交互等领域。

行为识别发展至今，取得了很大的进展，各类行为识别算法层出不穷，但就整体应用而言，并不成熟，其难点主要体现在以下几个方面：(1).动作类间的界限模糊，动作类内变化大等因素，导致识别率低，误检率高；(2).易受遮挡、场景、摄像机移动、视角和光照变化等环境变化的影响；(3).异常行为数据难获取，标注难度大；(4).复杂动作识别有待突破。行为识别技术的关键在于时空特征建模与提取，特征提取过程受到以上方面的影响而具有很大的挑战性。

目前，常见的行为识别方法有：基于3D卷积的行为识别方法、基于LSTM网络的行为识别方法、基于光流法(或双流法)的行为识别方法、基于骨架的行为识别方法等。基于LSTM网络的行为识别方法对于时空特征建模能力较弱，导致行为识别精度差；基于光流法的行为识别方法虽然精度高，但识别速度慢，实际应用中难以做到实时；基于3D卷积的行为识别方法识别精度高，但3D卷积计算耗时；而基于骨架的行为识别方法，骨架提取环节耗时，还需结合传统的LSTM、CNN、SVM等方法，导致误差累积，整体精度不高。最近，比较火热的基于GCN(图卷积网络)的行为识别方法，精度虽高，但实际应用时存在推理速度慢等问题，还有待进一步研究。

从实际应用的角度讲，行为识别技术存在精度低、速度慢等缺点。尽管存在一些较为先进的行为识别方法，如：基于3D-CNN网络的行为识别方法、基于双流法的行为识别方法等，可以达到实时应用的效果，但受限于行为识别系统中的其他模块，整体识别效率依然是瓶颈。

发明内容

为解决现有技术所存在的技术问题，本发明提出一种多目标的行为识别方法及系统，基于2D卷积神经网络的时空特征建模，模型参数少、计算量小，能够实现实时的目标行为检测、跟踪、行为识别。

本发明识别方法采用以下技术方案来实现：多目标的行为识别方法，包括以下步骤：

S1、对视频帧进行目标检测，输出每一帧中全部目标的目标位置；

S2、对视频帧中的目标进行跟踪，获得视频帧的目标信息；

S3、抽取视频帧，对目标信息进行单目标位置并集运算，得到每个目标在不同视频帧中的共同位置，进一步获得每个目标的视频序列；

S4、建立行为识别网络模型，根据每个目标的视频序列，对目标的行为进行识别，输出目标的行为识别结果。

在本发明的一个实施例中，上述行为识别方法的步骤S3包括：

步骤S31、维护一个长度为一固定值m的数据队列，该数据队列从步骤S2获取视频帧的目标信息；从该数据队列中抽取一固定数量n的视频帧的目标信息，其中n＜m；

步骤S32、将所抽取的n个视频帧的目标信息进行单目标位置并集运算，获得每个目标在不同视频帧中的共同位置；

步骤S33、根据每个目标的共同位置，拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列；

步骤S4的行为识别完毕后，将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息，并获取新的n个视频帧的目标信息补充至数据队列后面。

在本发明的一个实施例中，上述行为识别方法的步骤S4包括：

将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中，分别进行2D-CNN视频帧空间特征提取，其中n个主干网络共享权值；

提取视频帧的空间特征后，对n个视频帧的空间特征进行时间轴拼接，达到空间特征融合的目的；空间特征融合后得到的特征，通过PCM-ResNet网络进行时空特征学习与提取。

本发明识别系统采用以下技术方案来实现：多目标的行为识别系统，包括检测模块、跟踪模块、抽帧模块及行为识别模块；

检测模块用于对视频帧进行目标检测，输出每一帧中全部目标的目标位置；

跟踪模块用于对视频帧中的目标进行跟踪，获得视频帧的目标信息；

抽帧模块用于对目标信息进行单目标位置并集运算，得到每个目标在不同视频帧中的共同位置，进一步获得每个目标的视频序列；

行为识别模块用于建立行为识别网络模型，根据每个目标的视频序列，对目标的行为进行识别，输出目标的行为识别结果。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明基于2D卷积神经网络的时空特征建模，利用所建立的新型行为识别模型实现实时目标行为检测、跟踪、行为识别，还可与告警等功能模块一体化集成应用；与现有基于3D卷积的行为识别模型相比，模型参数少、计算量小，并可以有效利用现有加速库(因为是纯粹的2D网络模型)进行模型推理加速，从而达到高速、高精度行为识别落地应用的目的。

2、本发明提出的行为识别方法基于2D-CNN，该方法在保持高速、高精度行为识别效果的基础上，能有效减小模型参数规模，达到提高行为识别推理速度的目的；并在此基础上，还提出一种目标检测及行为识别的系统框架，达到多目标行为实时识别的目的。

附图说明

图1是本发明一种实施例中的行为识别方法流程图；

图2是本发明一种实施例中的行为识别系统方框图；

图3是本发明一种实施例中视频帧抽取方式的示意图；

图4是本发明一种实施例中目标框合并原理示意图；

图5是本发明一种实施例中行为识别网络模型的结构示意图；

图6是本发明一种实施例中PCM-ResNet网络结构示意图；

图7是本发明一种实施例中PCM模块结构示意图；

图8是PCM模块中第一支路的结构示意图；

图9是PCM模块中第二支路的结构示意图；

图10是PCM模块中第三支路的结构示意图；

图11是本发明另一实施例中PCM模块的结构示意图；

图12是本发明再一实施例中PCM模块的结构示意图；

图13是本发明实施例中提供的几种重塑模块结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，本实施例提出多目标的行为识别方法，主要包括目标检测、目标跟踪、视频帧抽取、行为识别以及告警等过程，具体如下：

对连续输入的视频帧，使用检测模型(如Tiny-Yolo模型、Mobilenet-SSD模型等)对每一帧进行目标检测，输出每一帧所包含的全部目标的目标位置，每一个目标T的目标位置用一个矩形框表示：

Lⁱ _j＝(x_i,y_i,w_i,h_i)ⁱ

其中，i表示第i个视频帧，j表示在该视频帧下的第j个目标，x、y、w、h分别表示相应矩形框的左上角横坐标、左上角纵坐标、宽、高。

S2、对视频帧中的目标进行编号，基于交并比iou技术对视频帧中的目标进行跟踪，获得视频帧的目标信息；

从接收到第一个视频帧开始时，为每一视频帧中的每个目标进行编号，对第i个视频帧的编号如下：

其中，

表示第i个视频帧的第j个目标的编号。

并从接收第二个视频帧的目标位置信息开始，计算当前视频帧所有目标位置与上一视频帧所有目标位置的iou值：

表示第i个视频帧(即当前视频帧)中第k个目标

与第i-1个视频帧(即上一视频帧)中所有目标

的iou值。也就是说，对于第二个视频帧，计算其所有目标位置与第一个视频帧所有目标位置的iou值；对于第三个视频帧，计算其所有目标位置与第二个视频帧所有目标位置的iou值，依此类推。

然后获取

中的最大值，当该最大值大于预设阈值c_iou时，则判定该目标

与前一视频帧中对应的目标

为同一目标，如果在前一视频帧中找不到符合条件的目标，则给该目标新编一个编号：

即判断该目标为当前视频帧中新出现的目标。

S3、抽取视频帧，对目标信息进行单目标位置并集运算，得到每个目标在不同视频帧中的共同位置，进一步获得每个目标的视频序列；具体实现流程如下：

步骤S31、维护一个数据队列，该数据队列从步骤S2获取视频帧的目标信息(包括视频帧的编号及目标位置)，该数据队列的长度为一固定值m，用于暂存m个视频帧的目标信息；从该数据队列中抽取一固定数量n的视频帧的目标信息，其中n＜m；

从m个视频帧中抽取其中的n个，可以采用前面少取、后面多取的策略，也可以采用等间隔抽取的策略，还可以采用前面多取、后面少取的策略。以m＝32，n＝8为例，其中一种等间距抽取策略的示意图如图3所示，每个矩形代表一个视频帧的目标信息，矩形中的数字代表该帧在数据队列中的位置。图3所示的抽取策略中，从32个视频帧中等间隔抽取了第0、8、16、20、24、26、28、30共8个视频帧，用所抽取的8个视频帧的目标信息代表32个视频帧所包含的目标信息，降低了数据冗余度；其中，等间隔抽取，是指从m个视频帧中等间距抽取，所抽取n个视频帧中是跳跃相同数量的视频帧抽取得到的。

步骤S32、将上述步骤S31抽取的n个视频帧的目标信息进行单目标位置并集运算及过滤操作，获得每个目标在不同视频帧中的共同位置。

首先，如果得到的目标位置信息数量小于预设阈值c_validT，则直接丢弃该目标：

if(len(L_label)＜c_validT):

delete(T_label)

其中，L_label表示目标T_label的所有信息。

如图4所示，以len(L_label)＝n＝8为例，每个目标中的每一个实线矩形框代表该目标在n个不同视频帧中的位置

虚线矩形框代表并集运算后的共同位置

通过并集运算得到的每个目标的共同位置

再经过面积过滤、长宽比过滤以及NMS(非极大值抑制)后，跳转至步骤S33。

采用并集运算获得每个目标在n个不同视频帧的共同位置，消除了视频帧拍摄过程中摄像机轻微运动、抖动等带来的干扰，提高了后续行为识别的精确度。此外，相邻两次并集运算中，有部分视频帧是重复的，从而保持目标动作的连续性，提高对目标进行行为识别的准确率。

步骤S33、根据步骤S32得出的每个目标的共同位置

拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列，然后跳转至步骤S4。每个目标对应一个视频序列Γ_label，视频序列的长度为n(对应n个视频帧)。

S4、对目标的行为进行识别，输出目标的行为识别结果；

首先，设计一种PCM-ResNet行为识别网络模型，其中PCM为ParallellConvolution Module(平行卷积模块)的简称，将每个目标的n个视频帧图像输入PCM-ResNet网络中进行行为特征抽取。

本实施例所设计的行为识别网络模型结构如图5所示，主要实现的过程包括：空间特征提取、空间特征融合和时空特征提取三部分，其中n_cls是行为类别个数。行为识别模型以Inception-V2部分网络(从conv1至inception3c)作为主干网络(Backbone)，将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中，分别进行2D-CNN视频帧空间特征提取，并且n个主干网络通过共享权值的方式减少参数量；提取视频帧的空间特征后，对n个视频帧的空间特征进行时间轴拼接(Concatenate)，达到空间特征融合的目的；空间特征融合后得到的特征，通过PCM-ResNet网络进行时空特征学习与提取；时空特征提取得到相应的特征后依次进行重塑(Reshape)、全局平均池化(Global Average Pooling,GAP)、全连接层(Fully Connected layer，FC)和Softmax函数操作，最后得到视频中目标的行为类别。本实施例在时空特征提取后、全局平均池化处理之前，对相应的时空特征进行重塑处理，其目的在于将相应的时空特征从五维张量(tensor)转成四维张量(tensor),这样就可以避免进行3D的全局平均池化操作，只用2D的全局平均池化操作就行了。

其中，PCM-ResNet网络通过PCM模块替换3D卷积神经网络中3D卷积获得；其中，3D卷积神经网络可以是3D-ResNet、3D-ResNet18或3D-ResNet50等，以3D-ResNet18为例，可选择从res3a至res5a部分。本发明改进后的PCM-ResNet网络如图6所示，包括相串联的两个PCM模块。其中，PCM模块的结构如图7所示。PCM模块的输入和输出均是五维的特征图数据，五个维度分别表示特征图的数量维度N、特征图的通道维度C、特征图的时间维度T、特征图的高度维度H以及特征图的宽度维度W。大小为(N,C_I,T_I,H_I,W_I)的五维输入特征图X进入3条支路，以数量维度N等于1为例，第一支路、第二支路、第三支路的结构分别如图8、图9、图10所示。

在第一支路，五维输入特征图X通过H维度重塑模块(Reshape Block)，在TW视角进行重塑(Reshape)，得到大小为(N,C_I,T_I,H_I×W_I)的四维特征图X_TW；之后四维特征图X_TW通过3x3卷积，得到大小为(N,C_O,T_O,H_O×W_O)的四维特征图Y_TW；四维特征图Y_TW通过恢复模块(Recover Block)，复原为五维特征图，得到第一支路的输出。在第二支路，五维输入特征图X通过T维度重塑模块(Reshape Block)，在HW视角进行重塑，得到大小为(N,C_I,H_I,T_I×W_I)的四维特征图X_HW；之后四维特征图X_HW通过3x3卷积，得到大小为(N,C_O,H_O,T_O×W_O)的四维特征图Y_HW；四维特征图Y_HW通过恢复模块(Recover Block)，复原为五维特征图，得到第二支路的输出。在第三支路，五维输入特征图X通过W维度重塑模块(Reshape Block)，在TH视角进行重塑，得到大小为(N,C_I,T_I,W_I×H_I)的四维特征图X_TH；之后四维特征图X_TH通过3x3卷积，得到大小为(N,C_O,T_O,W_O×H_O)的四维特征图Y_TH；四维特征图Y_TH通过恢复模块(RecoverBlock)，复原为五维特征图，得到第三支路的输出。最后PCM模块对三个支路的输出相加，进行特征融合，输出大小为(N,C_O,T_O,H_O,W_O)的五维输出特征图Y，即输出目标的时空特征。

除了三支路结构的PCM模块，两支路的变形设计结构也能实现对行人目标的时空特征提取，如图11、12所示。在两支路的PCM模块中，其中一支路用于空间特征提取，另一支路用于时间特征提取。

各维度的重塑模块(Reshape Block)结构如图13所示。图13中，图(I)所示重塑模块包括2D池化层和重塑层；图(II)所示重塑模块包括1*1的卷积层、2D池化层、重塑层；图(III)所示重塑模块包括卷积层、2D池化层、重塑层；图(IV)所示重塑模块包括卷积层、1*1的卷积层、2D池化层、重塑层。

本步骤还根据五维输出特征图Y判断行为识别是否异常，对异常行为所属类别进行归类，统计各类异常行为出现的次数。

行为识别完毕后，将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息，并获取新的n个视频帧的目标信息补充至数据队列后面。也就是说，在本实施例中，视频帧抽取不是抽取数据队列的前n个视频帧，而是从数据队列中跳跃式抽取的；但在行为识别结束后，视频帧的丢弃是选取数据队列的前n个视频帧，因而数据队列中m个视频帧存在视频帧重复抽取、并集运算的情形；跳跃式抽取使得所抽取的n个视频帧相较于整个数据队列的m个视频帧而言，数据样本上具有较为典型的代表性，同时又兼顾降低了数据冗余度，减少了并集运算和行为识别的计算量；数据队列中的视频帧被重复抽取、并集运算，在保证目标动作的连续性的基础上，获得每个目标在n个不同视频帧的共同位置，消除了视频拍摄过程中产生的干扰。

S5、发出行为异常的告警信息

通过维护一个数据队列Γ_alarm，获取目标的行为识别结果。该数据队列Γ_alarm暂存每个目标最多k次的行为识别结果，当目标的行为识别结果出现系统预设的异常行为中同一类别的次数超过预设值c_alarm次，且该类别与最后一次识别结果一致时，系统将对该目标进行报警提示，输出该目标在不同视频帧中的共同位置及异常行为的类别。

实施例2

如图2所示，与实施例1基于相同的发明构思，本实施例提出多目标的行为识别系统，主要包括检测模块101、跟踪模块102、抽帧模块103、行为识别模块104以及告警模块105。

检测模块对连续输入的视频帧，使用检测模型(如Tiny-Yolo模型、Mobilenet-SSD模型等)对每一帧进行目标检测，输出每一帧所包含的全部目标的目标位置，每一个目标T的目标位置用实施例1中步骤S1所描述的矩形框表示。

跟踪模块用于实现实施例1中的步骤S2，负责为每个目标编号，基于交并比iou技术对视频帧中的目标进行跟踪。跟踪模块在接收到第一个视频帧时，为其中每个目标编号；跟踪模块从接收第二个视频帧的目标位置信息开始，计算该帧所有目标位置与上一帧所有目标位置的iou值，即对于第二个视频帧，计算其所有目标位置与第一个视频帧所有目标位置的iou值；对于第三个视频帧，计算其所有目标位置与第二个视频帧所有目标位置的iou值，依此类推。用iouⁱ _k表示第i个视频帧(即当前视频帧)中第k个目标T_k ⁱ与第i-1个视频帧(即上一视频帧)中所有目标T_k ^i-1的iou值，则跟踪模块获取iouⁱ _k中的最大值，当该最大值大于预设阈值c_iou时，则判定该目标T_k ⁱ与前一视频帧中对应的目标T_ji-_m1_ax为同一目标，如果在前一视频帧中找不到符合条件的目标，则判断该目标为当前视频帧中新出现的目标，并给该目标新编一个编号。

抽帧模块用于实现实施例1中的步骤S3，抽取视频帧后，对目标信息进行单目标位置并集运算，得到每个目标在不同视频帧中的共同位置，进一步获得每个目标的视频序列。抽帧模块维护一个数据队列，该数据队列从跟踪模块获取视频帧的目标信息；当系统运行时，每次从该数据队列中抽取一固定数量n的视频帧的目标信息，用于进行后续的计算，并将计算结果输出至行为识别模块，行为识别模块执行完毕后，该模块将丢弃数据队列中前n个视频帧的目标信息，并从跟踪模块获取新的n个视频帧的目标信息补充至数据队列后面。

行为识别模块用于实现实施例1的步骤S4，对目标的行为进行识别，输出目标的行为识别结果。行为识别模块设计了一种PCM-ResNet行为识别网络模型，如图5所示，包括依次连接的空间特征提取模块、空间特征融合模块和时空特征提取模块。其中，空间特征提取模块包括n个共享权值的主干网络，n个视频帧图像输入到n个主干网络中，分别进行2D-CNN视频帧空间特征提取；空间特征融合模块，将空间特征提取模块所提取的n个视频帧的空间特征进行时间轴拼接，达到空间特征融合的目的；时空特征提取模块采用PCM-ResNet网络，对空间特征融合后得到的特征进行时空特征提取；得到相应的时空特征后依次进行全局平均池化(Global Average Pooling,GAP)、全连接层(Fully Connected layer，FC)和Softmax函数操作，最后得到视频的行为类别。其中，PCM-ResNet网络如图6所示，包括两个PCM模块；而PCM模块的结构如图7所示，输入和输出均是五维的特征图数据，大小为(N,C_I,T_I,H_I,W_I)的五维输入特征图X进入PCM模块的3条支路，第一支路、第二支路、第三支路的结构分别如图8、图9、图10所示。三条支路的实现过程已在实施例1中进行了充分的描述，在此不赘述。行为识别模块还根据五维输出特征图Y判断行为识别是否异常，对异常行为所属类别进行归类，统计各类异常行为出现的次数。

报警模块用于实现实施例1的步骤S5，维护一个数据队列Γ_alarm，从行为识别模块获取目标的行为识别结果。该数据队列暂存每个目标最多k次的行为识别结果，当目标的行为识别结果出现系统预设的异常行为中同一类别的次数超过c_alarm次，且该类别与最后一次识别结果一致时，系统将对该目标进行报警提示，输出该目标在不同视频帧中的共同位置及异常行为的类别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种多目标的行为识别方法，其特征在于，包括以下步骤：

S2、对视频帧中的目标进行跟踪，获得视频帧的目标信息；

2.根据权利要求1所述的行为识别方法，其特征在于，步骤S3包括：

步骤S33、根据每个目标的共同位置，拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列。

3.根据权利要求2所述的行为识别方法，其特征在于，步骤S31从m个视频帧中抽取其中的n个，采用前面少取、后面多取的策略，或采用等间隔抽取的策略，或采用前面多取、后面少取的策略。

4.根据权利要求1所述的行为识别方法，其特征在于，步骤S4包括：

5.根据权利要求4所述的行为识别方法，其特征在于，步骤S4还包括：

时空特征提取得到相应的特征后，依次进行全局平均池化、全连接层和Softmax函数操作，最后得到视频中目标的行为类别。

6.根据权利要求4所述的行为识别方法，其特征在于，PCM-ResNet网络包括PCM模块；PCM模块的输入和输出均是五维的特征图数据，五个维度分别表示特征图的数量维度N、特征图的通道维度C、特征图的时间维度T、特征图的高度维度H以及特征图的宽度维度W；PCM模块包括第一支路、第二支路及第三支路；

在第一支路，五维输入特征图X通过H维度重塑模块，在TW视角进行重塑，得到大小为(N,C_I,T_I,H_I×W_I)的四维特征图X_TW；四维特征图X_TW通过卷积得到大小为(N,C_O,T_O,H_O×W_O)的四维特征图Y_TW；四维特征图Y_TW通过恢复模块，复原为五维特征图，得到第一支路的输出；

在第二支路，五维输入特征图X通过T维度重塑模块，在HW视角进行重塑，得到大小为(N,C_I,H_I,T_I×W_I)的四维特征图X_HW；四维特征图X_HW通过卷积得到大小为(N,C_O,H_O,T_O×W_O)的四维特征图Y_HW；四维特征图Y_HW通过恢复模块，复原为五维特征图，得到第二支路的输出；

在第三支路，五维输入特征图X通过W维度重塑模块，在TH视角进行重塑，得到大小为(N,C_I,T_I,W_I×H_I)的四维特征图X_TH；四维特征图X_TH通过卷积得到大小为(N,C_O,T_O,W_O×H_O)的四维特征图Y_TH；四维特征图Y_TH通过恢复模块，复原为五维特征图，得到第三支路的输出；

PCM模块对三个支路的输出相加，进行特征融合，输出大小为(N,C_O,T_O,H_O,W_O)的五维输出特征图Y，即输出目标的时空特征。

7.根据权利要求6所述的行为识别方法，其特征在于，步骤S4还根据五维输出特征图Y判断行为识别是否异常，对异常行为所属类别进行归类，统计各类异常行为出现的次数；所述行为识别方法还包括：

S5、发出行为异常的告警信息：当目标的行为识别结果出现预设的异常行为中同一类别的次数超过预设值c_alarm次，且该类别与最后一次识别结果一致时，将对该目标进行报警提示，输出该目标在不同视频帧中的共同位置及异常行为的类别。

8.根据权利要求2所述的行为识别方法，其特征在于，步骤S4的行为识别完毕后，将丢弃步骤S31中所维护的数据队列中前n个视频帧的目标信息，并获取新的n个视频帧的目标信息补充至数据队列后面。

9.一种多目标的行为识别系统，其特征在于，包括检测模块、跟踪模块、抽帧模块及行为识别模块；

10.根据权利要求9所述的行为识别系统，其特征在于，所述抽帧模块维护一个长度为一固定值m的数据队列，该数据队列从跟踪模块获取视频帧的目标信息；从该数据队列中抽取一固定数量n的视频帧的目标信息，其中n＜m；抽帧模块将所抽取的n个视频帧的目标信息进行单目标位置并集运算，获得每个目标在不同视频帧中的共同位置，再根据每个目标的共同位置，拷贝n个视频帧中对应位置的图片数据组成每个目标的视频序列；

所述行为识别模块将每个目标视频序列的n个视频帧图像分别输入到n个主干网络中，分别进行2D-CNN视频帧空间特征提取，其中n个主干网络共享权值；提取视频帧的空间特征后，对n个视频帧的空间特征进行时间轴拼接，达到空间特征融合的目的；空间特征融合后得到的特征，通过PCM-ResNet网络进行时空特征学习与提取，得到视频的行为类别；判断行为识别是否异常，对异常行为所属类别进行归类，统计各类异常行为出现的次数；

所述行为识别系统还包括告警模块，用于当目标的行为识别结果出现预设的异常行为中同一类别的次数超过预设值c_alarm次，且该类别与最后一次识别结果一致时，将对该目标进行报警提示，输出该目标在不同视频帧中的共同位置及异常行为的类别。